谷歌在機(jī)器人技術(shù)領(lǐng)域再度邁出重要一步,近日推出了Gemini Robotics On-Device模型,這是其“視覺(jué)語(yǔ)言動(dòng)作”(VLA)模型的升級(jí)版。據(jù)谷歌官方介紹,這款新模型代表了他們目前最強(qiáng)大的VLA技術(shù)能力,特別之處在于它經(jīng)過(guò)優(yōu)化,可以在機(jī)器人設(shè)備上直接本地運(yùn)行。
DeepMind的高級(jí)總監(jiān)及機(jī)器人項(xiàng)目負(fù)責(zé)人分享道,這款模型的獨(dú)特優(yōu)勢(shì)在于其不依賴(lài)于數(shù)據(jù)網(wǎng)絡(luò),因此對(duì)延遲敏感的應(yīng)用場(chǎng)景極為友好。即使在間歇性斷網(wǎng)或無(wú)網(wǎng)絡(luò)連接的環(huán)境下,它也能保持穩(wěn)定運(yùn)行,這為機(jī)器人的廣泛應(yīng)用提供了更多可能性。
Gemini Robotics On-Device模型是在今年3月推出的Gemini Robotics基礎(chǔ)上升級(jí)而來(lái),專(zhuān)為雙臂機(jī)器人設(shè)計(jì)。谷歌明確表示,這款模型旨在提升機(jī)器人在應(yīng)對(duì)復(fù)雜任務(wù)時(shí)的靈巧性和適應(yīng)能力。在一次演示活動(dòng)中,團(tuán)隊(duì)展示了搭載這一本地模型的機(jī)器人,它們能夠輕松完成如拉開(kāi)拉鏈、折疊衣物等精細(xì)動(dòng)作。
值得注意的是,雖然該模型最初是為ALOHA機(jī)器人訓(xùn)練的,但谷歌隨后對(duì)其進(jìn)行了調(diào)整,使其也適用于雙臂Franka FR3機(jī)器人和Apollo人形機(jī)器人。這一靈活性顯示了谷歌在機(jī)器人技術(shù)領(lǐng)域的廣泛布局和深厚實(shí)力。
為了推動(dòng)Gemini Robotics的進(jìn)一步發(fā)展,谷歌DeepMind還發(fā)布了配套的Gemini Robotics SDK。開(kāi)發(fā)人員可以在MuJoCo高級(jí)物理模擬器上利用這些模型,通過(guò)向機(jī)器人展示50到100個(gè)任務(wù)演示來(lái)訓(xùn)練它們完成任務(wù)。這一舉措無(wú)疑將加速機(jī)器人技術(shù)的研發(fā)和應(yīng)用進(jìn)程。
與單純的大語(yǔ)言模型相比,機(jī)器人AI面臨更多挑戰(zhàn)。機(jī)器人不僅存在于物理世界中,還會(huì)改變其環(huán)境。谷歌DeepMind機(jī)器人技術(shù)負(fù)責(zé)人強(qiáng)調(diào),Gemini不僅能夠生成文本、寫(xiě)詩(shī)、總結(jié)文章甚至編寫(xiě)代碼,現(xiàn)在還能生成機(jī)器人動(dòng)作。這意味著谷歌的機(jī)器人模型已經(jīng)能夠通過(guò)大數(shù)據(jù)訓(xùn)練各種動(dòng)作,在快速迭代中應(yīng)對(duì)物理世界的各種問(wèn)題。
在安全性方面,谷歌也采取了嚴(yán)格措施。他們采用多層限制的方法,通過(guò)底層VLA模型和上層VLA推理模型共同管理機(jī)器人的指令。這種“AI管理AI”的方式旨在確保機(jī)器人的安全運(yùn)行,避免潛在的風(fēng)險(xiǎn)。
隨著谷歌在機(jī)器人技術(shù)領(lǐng)域的不斷突破,越來(lái)越多的公司也開(kāi)始關(guān)注這一領(lǐng)域。Nvidia等知名企業(yè)正在秘密研發(fā)自己的機(jī)器人項(xiàng)目,國(guó)內(nèi)也有眾多企業(yè)在默默耕耘。可以預(yù)見(jiàn),一場(chǎng)新的AI大戰(zhàn)即將拉開(kāi)帷幕,讓我們共同期待這一領(lǐng)域的精彩發(fā)展。