在自動(dòng)化制造領(lǐng)域,多個(gè)機(jī)械臂如何在充滿障礙物的共享空間中高效協(xié)作、避免碰撞,一直是困擾業(yè)界的難題。如今,一項(xiàng)發(fā)表于《科學(xué)·機(jī)器人學(xué)》(Science Robotics)的新研究,為這一難題提供了創(chuàng)新解決方案——由DeepMind、Intrinsic AI和倫敦大學(xué)學(xué)院等機(jī)構(gòu)聯(lián)合開發(fā)的“機(jī)器芭蕾”(RoboBallet)系統(tǒng),通過將圖神經(jīng)網(wǎng)絡(luò)(GNN)與強(qiáng)化學(xué)習(xí)結(jié)合,實(shí)現(xiàn)了多機(jī)械臂的協(xié)同運(yùn)動(dòng)規(guī)劃。
研究團(tuán)隊(duì)介紹,傳統(tǒng)方法在處理多機(jī)器人任務(wù)分配、調(diào)度和運(yùn)動(dòng)規(guī)劃時(shí),需分別解決三個(gè)子問題:任務(wù)分配需決定“誰做哪項(xiàng)任務(wù)”;任務(wù)調(diào)度需確定“任務(wù)執(zhí)行順序”;運(yùn)動(dòng)規(guī)劃則需在關(guān)節(jié)空間中尋找無碰撞路徑。這三個(gè)問題相互交織,導(dǎo)致計(jì)算復(fù)雜度呈指數(shù)級增長,工業(yè)界目前仍依賴人工規(guī)劃,效率低下且成本高昂。
RoboBallet的創(chuàng)新之處在于,它將整個(gè)場景建模為圖結(jié)構(gòu):機(jī)器人、任務(wù)和障礙物作為節(jié)點(diǎn),節(jié)點(diǎn)間的關(guān)系(如相對位置)作為邊。例如,機(jī)器人節(jié)點(diǎn)間存在雙向邊以支持避碰協(xié)調(diào),任務(wù)和障礙物節(jié)點(diǎn)到機(jī)器人節(jié)點(diǎn)則存在單向邊,用于傳遞環(huán)境信息。這種圖結(jié)構(gòu)表示,使系統(tǒng)能夠動(dòng)態(tài)適應(yīng)不同數(shù)量的機(jī)器人和任務(wù)。
在算法層面,RoboBallet采用圖神經(jīng)網(wǎng)絡(luò)作為策略網(wǎng)絡(luò),通過權(quán)重共享處理不同規(guī)模的圖輸入。系統(tǒng)以觀測圖為輸入,在每個(gè)時(shí)間步為所有機(jī)械臂生成關(guān)節(jié)速度指令,使其僅憑原始狀態(tài)輸入即可完成關(guān)系推理。為解決稀疏獎(jiǎng)勵(lì)問題,研究團(tuán)隊(duì)引入了“事后經(jīng)驗(yàn)回放”(Hindsight Experience Replay)方法,使模型無需人工設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)即可高效學(xué)習(xí)。
實(shí)驗(yàn)中,研究團(tuán)隊(duì)在模擬環(huán)境中部署了4至8個(gè)Franka Panda七自由度機(jī)械臂,測試場景包含40個(gè)任務(wù)和30個(gè)障礙物。與經(jīng)典RRT-Connect算法對比顯示,RoboBallet在多個(gè)關(guān)鍵指標(biāo)上表現(xiàn)優(yōu)異:在訓(xùn)練擴(kuò)展性方面,任務(wù)數(shù)量增加四倍時(shí),收斂所需訓(xùn)練步數(shù)僅略有增加;在規(guī)劃速度上,8個(gè)機(jī)械臂和40個(gè)任務(wù)的最大場景中,每個(gè)規(guī)劃步在NVIDIA A100 GPU上僅需0.3毫秒,在單核CPU上約需30毫秒,均遠(yuǎn)超實(shí)時(shí)需求;在協(xié)同效率上,機(jī)器人數(shù)量從4個(gè)增至8個(gè)時(shí),平均執(zhí)行時(shí)間減少約60%。
更引人注目的是,RoboBallet展現(xiàn)了強(qiáng)大的零樣本泛化能力。模型在隨機(jī)生成的環(huán)境中訓(xùn)練后,可直接遷移至具有不同機(jī)器人位置、障礙物形狀和任務(wù)姿態(tài)的新環(huán)境,無需額外訓(xùn)練。這種特性使其能夠應(yīng)用于工作單元布局優(yōu)化(任務(wù)執(zhí)行時(shí)間縮短33%)、容錯(cuò)規(guī)劃和基于在線感知的重新規(guī)劃等場景。
研究團(tuán)隊(duì)指出,RoboBallet的高速和可擴(kuò)展性,為自動(dòng)化制造提供了新的技術(shù)路徑。其每步0.3毫秒的規(guī)劃速度,足以支持10Hz時(shí)間步下的實(shí)時(shí)控制,而單GPU即可完成所有計(jì)算,顯著降低了部署成本。未來,這一技術(shù)有望進(jìn)一步推動(dòng)智能制造的發(fā)展。