智元機器人近日宣布了一項重大技術(shù)創(chuàng)新,正式推出了業(yè)內(nèi)首個開源的機器人世界模型平臺——Genie Envisioner(簡稱GE)。這一平臺的誕生,標(biāo)志著機器人在學(xué)習(xí)技術(shù)領(lǐng)域邁出了劃時代的一步。
與傳統(tǒng)機器人學(xué)習(xí)方式截然不同,Genie Envisioner平臺構(gòu)建了一個以統(tǒng)一視頻生成世界模型為核心的閉環(huán)系統(tǒng)。該系統(tǒng)整合了未來幀預(yù)測、策略學(xué)習(xí)與仿真評估等功能模塊,使得機器人能夠在單一模型中實現(xiàn)從環(huán)境感知、決策思考到動作執(zhí)行的整個流程,極大地提升了機器人的自主學(xué)習(xí)和適應(yīng)能力。
該平臺的核心競爭力在于其高度集成的閉環(huán)架構(gòu)。其中,GE-Base模型經(jīng)過海量數(shù)據(jù)訓(xùn)練,具備卓越的環(huán)境布局解析和動作意圖理解能力。GE-Act作為動作解碼器,負(fù)責(zé)將GE-Base模型的理解結(jié)果轉(zhuǎn)化為具體的動作指令。而GE-Sim則是一個基于動作條件的神經(jīng)仿真器,通過精細(xì)的分層機制,實現(xiàn)了高精度的視覺預(yù)測。這三個部分緊密配合,共同驅(qū)動著整個平臺的高效運行。
為了打造這一平臺,智元機器人投入了大量資源,收集了約3000小時的真實機器人操作視頻數(shù)據(jù)。這些數(shù)據(jù)不僅為模型建立了語言指令與視覺空間之間的直接聯(lián)系,還完整地保留了操作過程中的時空信息,為平臺的準(zhǔn)確性和實用性奠定了堅實基礎(chǔ)。
在實際應(yīng)用測試中,搭載GE-Act模塊的機器人已經(jīng)成功完成了多項復(fù)雜任務(wù),如制作三明治、倒茶和擦拭桌面等。這些成功案例不僅充分展示了GE平臺的技術(shù)優(yōu)勢,也進一步證明了其在提升機器人智能化水平和任務(wù)執(zhí)行能力方面的巨大潛力。隨著技術(shù)的不斷成熟和完善,相信Genie Envisioner平臺將在更多領(lǐng)域發(fā)揮重要作用,推動機器人技術(shù)的持續(xù)創(chuàng)新和發(fā)展。