拋棄OpenAI,,F(xiàn)igure亮王牌:史上首次兩個機器人「共腦」!Figure在與OpenAI分手后,,自主研發(fā)了首個模型Helix,。這個視覺-語言-動作模型被直接應(yīng)用于人形機器人大腦中,讓機器人具備感知,、語言理解和學(xué)習(xí)控制的能力,,是一個端到端的通用模型,。Figure的目標(biāo)是發(fā)展家庭機器人,其內(nèi)部的AI需要像人一樣推理,,處理各種家庭用品,。
Helix目前主要用于Figure上半身的控制,包括手腕,、頭部,、單個手指和軀干,能夠以高速率執(zhí)行復(fù)雜任務(wù),。只需一句話,,機器人就可以拿起任何物品。例如,,當(dāng)被要求“撿起沙漠物品”時,,Helix會識別出玩具仙人掌,選擇最近的手,,并執(zhí)行精確的電機指令來抓住它,。
拋棄OpenAI,F(xiàn)igure亮王牌:史上首次兩個機器人「共腦」
此外,,Helix還能精準(zhǔn)地處理生活中的各種小物件,,如金屬鏈、帽子,、玩具等,。它還可以將物品放置在冰箱里,而且兩個Figure機器人可以協(xié)作完成這一任務(wù),。Helix是首個同時操控兩臺機器人的VLA,,使它們能夠解決共同的長序列操作任務(wù),即使面對從未見過的物品也能應(yīng)對自如,。
新款模型采用單一神經(jīng)網(wǎng)絡(luò)權(quán)重學(xué)習(xí)所有行為,,無需特定微調(diào)。它還是首款完全在嵌入式低功耗GPU上運行的VLA,,未來商業(yè)部署甚至進入家庭指日可待,。家庭環(huán)境對機器人技術(shù)來說是巨大挑戰(zhàn),因為家中充滿了無數(shù)不可預(yù)測形狀,、尺寸,、顏色和質(zhì)地的物品。為了讓機器人在家庭中發(fā)揮作用,,它們需要生成智能化的新行為來應(yīng)對各種情況,,特別是那些從未見過的物品。
當(dāng)前,,教會機器人一個新行為需要大量人力投入,,要么博士級專家手動編程,,要么數(shù)千次示教。這兩種方法的成本都難以承受,。但通過Helix,,只需通過自然語言即可實時定義新技能。這種能力將從根本上改變機器人技術(shù)的發(fā)展軌跡,。突然間,,曾經(jīng)需要數(shù)百次示教才能掌握的新技能,現(xiàn)在只需通過自然語言與機器人對話就能立即獲得,。
Helix由“系統(tǒng)1”和“系統(tǒng)2”組成,,可以實現(xiàn)人形機器人上半身的高速精確控制。系統(tǒng)2(S2)是VLM主干網(wǎng)絡(luò),,工作頻率7-9Hz,,用于場景和語言理解;系統(tǒng)1(S2)是80M參數(shù)交叉注意力Transformer,,依靠全卷積多尺度視覺主干網(wǎng)絡(luò)進行視覺處理,。這種解耦架構(gòu)讓每個系統(tǒng)都能在最佳時間尺度上運行,S2可以“慢思考”高層目標(biāo),,S1通過“快思考”來實時執(zhí)行和調(diào)整動作,。
Helix不僅達到了專門針對單任務(wù)行為克隆策略的運行速度,還能夠?qū)?shù)千個全新測試對象實現(xiàn)零樣本學(xué)習(xí),。它可以直接輸出高維動作空間的連續(xù)控制,,避免了先前VLA方法中使用的復(fù)雜動作token化方案。Helix采用標(biāo)準(zhǔn)架構(gòu),,系統(tǒng)2使用開源開放權(quán)重的視覺語言模型,,系統(tǒng)1則采用簡單的基于Transformer的視覺運動策略。通過S1和S2的“解耦”,,能夠獨立迭代優(yōu)化每個系統(tǒng),,無需受限于尋找統(tǒng)一的觀察空間或動作表示。
研究人員收集了一個高質(zhì)量的多樣化遙操作行為數(shù)據(jù)集,,總計約500小時,。為了生成自然語言條件下的訓(xùn)練對,他們使用自動標(biāo)注VLM來生成回顧性指令,。S2建立在一個經(jīng)過互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)預(yù)訓(xùn)練的7B參數(shù)開源開放權(quán)重VLM之上,處理單目機器人圖像和機器人狀態(tài)信息,,將其投影到視覺-語言嵌入空間中,。結(jié)合指定期望行為的自然語言命令,S2將所有與任務(wù)相關(guān)的語義信息提煉為單個連續(xù)潛層向量,,傳遞給S1用于條件化其低層動作,。
S1是一個80M參數(shù)的交叉注意力編碼器-解碼器Transformer,,負責(zé)低層控制。它依賴于一個全卷積的多尺度視覺主干網(wǎng)絡(luò)進行視覺處理,。雖然S1接收與S2相同的圖像和狀態(tài)輸入,,但它以更高的頻率處理這些信息,以實現(xiàn)更快速的閉環(huán)控制,。來自S2的潛層向量被投影到S1的token空間,,并在序列維度上與S1視覺主干網(wǎng)絡(luò)的視覺特征連接,提供任務(wù)條件,。S1以200Hz的頻率輸出完整的上半身人形機器人控制信號,,包括期望的手腕姿態(tài)、手指彎曲和外展控制,,以及軀干和頭部方向目標(biāo),。
Helix采用完全端到端的訓(xùn)練方式,將原始像素和文本命令映射到連續(xù)動作,,使用標(biāo)準(zhǔn)回歸損失,。梯度通過用于條件化S1行為的潛在通信向量從S1反向傳播到S2,實現(xiàn)兩個組件的聯(lián)合優(yōu)化,。Helix不需要任務(wù)特定的適配,;它保持單一訓(xùn)練階段和單一神經(jīng)網(wǎng)絡(luò)權(quán)重集,無需獨立的動作輸出頭或每個任務(wù)的微調(diào)階段,。
由于這種訓(xùn)練設(shè)計,,Helix可以在Figure機器人上進行高效的模型并行部署,每個機器人都配備了雙低功耗嵌入式GPU,。推理流程在S2(高層潛規(guī)劃)和S1(低層控制)模型之間分割,,各自在專用GPU上運行。S2作為異步后臺進程運行,,處理最新的觀察數(shù)據(jù)和自然語言命令,,持續(xù)更新共享內(nèi)存中的潛在向量。S1作為獨立的實時進程執(zhí)行,,維持平滑的整體上半身動作所需的關(guān)鍵200Hz控制循環(huán),。
Helix以200Hz的頻率協(xié)調(diào)35個自由度的動作空間,控制從單個手指運動到末端執(zhí)行器軌跡,、頭部注視和軀干姿態(tài)的所有動作,。頭部和軀干控制帶來獨特挑戰(zhàn),當(dāng)它們移動時,,既會改變機器人的可達范圍,,也會改變可視范圍。機器人在調(diào)整軀干以獲得最佳可達范圍的同時,,用頭部平滑地跟蹤其手部動作,,并保持精確的手指控制以進行抓取,。即使對于單個已知任務(wù),在如此高維的動作空間中實現(xiàn)這種精度一直被認(rèn)為是極具挑戰(zhàn)性的,。
Helix還在多智能體操作場景中展示了零樣本學(xué)習(xí)能力,,兩臺Figure機器人成功操作了在訓(xùn)練中從未見過的雜貨,展示了強大的通用泛化能力,。兩個機器人使用完全相同的Helix模型權(quán)重運行,,無需針對特定機器人的訓(xùn)練或明確的角色分配。它們通過自然語言提示詞來實現(xiàn)協(xié)調(diào)配合,,比如“把餅干袋遞給你右邊的機器人”或“從你左邊的機器人那里接過餅干袋并放入打開的抽屜中”,。
研究人員發(fā)現(xiàn)配備Helix的Figure機器人只需一個簡單的“拾取[X]”指令就能拾取幾乎任何小型家居物品。即使在雜亂的環(huán)境下,,機器人也能成功處理從玻璃器皿和玩具到工具和衣物等數(shù)千件前所未見的物品,,而這一切無需任何事先示范或定制編程。Helix成功地連接了大規(guī)模語言理解能力與精確的機器人控制系統(tǒng),。這種通用的“語言到動作”抓取能力為類人機器人在復(fù)雜且不確定的非結(jié)構(gòu)化環(huán)境中的部署開創(chuàng)了激動人心的可能性,。