拋棄OpenAI,,F(xiàn)igure亮王牌:史上首次兩個(gè)機(jī)器人「共腦」!Figure在與OpenAI分手后,,自主研發(fā)了首個(gè)模型Helix,。這個(gè)視覺-語言-動作模型被直接應(yīng)用于人形機(jī)器人大腦中,讓機(jī)器人具備感知,、語言理解和學(xué)習(xí)控制的能力,,是一個(gè)端到端的通用模型。Figure的目標(biāo)是發(fā)展家庭機(jī)器人,,其內(nèi)部的AI需要像人一樣推理,,處理各種家庭用品,。
Helix目前主要用于Figure上半身的控制,包括手腕,、頭部,、單個(gè)手指和軀干,能夠以高速率執(zhí)行復(fù)雜任務(wù),。只需一句話,,機(jī)器人就可以拿起任何物品。例如,,當(dāng)被要求“撿起沙漠物品”時(shí),,Helix會識別出玩具仙人掌,選擇最近的手,,并執(zhí)行精確的電機(jī)指令來抓住它,。
拋棄OpenAI,F(xiàn)igure亮王牌:史上首次兩個(gè)機(jī)器人「共腦」
此外,,Helix還能精準(zhǔn)地處理生活中的各種小物件,,如金屬鏈、帽子,、玩具等,。它還可以將物品放置在冰箱里,而且兩個(gè)Figure機(jī)器人可以協(xié)作完成這一任務(wù),。Helix是首個(gè)同時(shí)操控兩臺機(jī)器人的VLA,,使它們能夠解決共同的長序列操作任務(wù),即使面對從未見過的物品也能應(yīng)對自如,。
新款模型采用單一神經(jīng)網(wǎng)絡(luò)權(quán)重學(xué)習(xí)所有行為,,無需特定微調(diào)。它還是首款完全在嵌入式低功耗GPU上運(yùn)行的VLA,,未來商業(yè)部署甚至進(jìn)入家庭指日可待,。家庭環(huán)境對機(jī)器人技術(shù)來說是巨大挑戰(zhàn),因?yàn)榧抑谐錆M了無數(shù)不可預(yù)測形狀,、尺寸,、顏色和質(zhì)地的物品。為了讓機(jī)器人在家庭中發(fā)揮作用,,它們需要生成智能化的新行為來應(yīng)對各種情況,,特別是那些從未見過的物品。
當(dāng)前,,教會機(jī)器人一個(gè)新行為需要大量人力投入,,要么博士級專家手動編程,要么數(shù)千次示教。這兩種方法的成本都難以承受,。但通過Helix,,只需通過自然語言即可實(shí)時(shí)定義新技能。這種能力將從根本上改變機(jī)器人技術(shù)的發(fā)展軌跡,。突然間,,曾經(jīng)需要數(shù)百次示教才能掌握的新技能,現(xiàn)在只需通過自然語言與機(jī)器人對話就能立即獲得,。
Helix由“系統(tǒng)1”和“系統(tǒng)2”組成,,可以實(shí)現(xiàn)人形機(jī)器人上半身的高速精確控制。系統(tǒng)2(S2)是VLM主干網(wǎng)絡(luò),,工作頻率7-9Hz,,用于場景和語言理解;系統(tǒng)1(S2)是80M參數(shù)交叉注意力Transformer,,依靠全卷積多尺度視覺主干網(wǎng)絡(luò)進(jìn)行視覺處理,。這種解耦架構(gòu)讓每個(gè)系統(tǒng)都能在最佳時(shí)間尺度上運(yùn)行,S2可以“慢思考”高層目標(biāo),,S1通過“快思考”來實(shí)時(shí)執(zhí)行和調(diào)整動作,。
Helix不僅達(dá)到了專門針對單任務(wù)行為克隆策略的運(yùn)行速度,還能夠?qū)?shù)千個(gè)全新測試對象實(shí)現(xiàn)零樣本學(xué)習(xí),。它可以直接輸出高維動作空間的連續(xù)控制,避免了先前VLA方法中使用的復(fù)雜動作token化方案,。Helix采用標(biāo)準(zhǔn)架構(gòu),,系統(tǒng)2使用開源開放權(quán)重的視覺語言模型,系統(tǒng)1則采用簡單的基于Transformer的視覺運(yùn)動策略,。通過S1和S2的“解耦”,,能夠獨(dú)立迭代優(yōu)化每個(gè)系統(tǒng),無需受限于尋找統(tǒng)一的觀察空間或動作表示,。
研究人員收集了一個(gè)高質(zhì)量的多樣化遙操作行為數(shù)據(jù)集,,總計(jì)約500小時(shí)。為了生成自然語言條件下的訓(xùn)練對,,他們使用自動標(biāo)注VLM來生成回顧性指令,。S2建立在一個(gè)經(jīng)過互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)預(yù)訓(xùn)練的7B參數(shù)開源開放權(quán)重VLM之上,處理單目機(jī)器人圖像和機(jī)器人狀態(tài)信息,,將其投影到視覺-語言嵌入空間中,。結(jié)合指定期望行為的自然語言命令,S2將所有與任務(wù)相關(guān)的語義信息提煉為單個(gè)連續(xù)潛層向量,,傳遞給S1用于條件化其低層動作,。
S1是一個(gè)80M參數(shù)的交叉注意力編碼器-解碼器Transformer,負(fù)責(zé)低層控制,。它依賴于一個(gè)全卷積的多尺度視覺主干網(wǎng)絡(luò)進(jìn)行視覺處理,。雖然S1接收與S2相同的圖像和狀態(tài)輸入,,但它以更高的頻率處理這些信息,以實(shí)現(xiàn)更快速的閉環(huán)控制,。來自S2的潛層向量被投影到S1的token空間,,并在序列維度上與S1視覺主干網(wǎng)絡(luò)的視覺特征連接,提供任務(wù)條件,。S1以200Hz的頻率輸出完整的上半身人形機(jī)器人控制信號,,包括期望的手腕姿態(tài)、手指彎曲和外展控制,,以及軀干和頭部方向目標(biāo),。
Helix采用完全端到端的訓(xùn)練方式,將原始像素和文本命令映射到連續(xù)動作,,使用標(biāo)準(zhǔn)回歸損失,。梯度通過用于條件化S1行為的潛在通信向量從S1反向傳播到S2,實(shí)現(xiàn)兩個(gè)組件的聯(lián)合優(yōu)化,。Helix不需要任務(wù)特定的適配,;它保持單一訓(xùn)練階段和單一神經(jīng)網(wǎng)絡(luò)權(quán)重集,無需獨(dú)立的動作輸出頭或每個(gè)任務(wù)的微調(diào)階段,。
由于這種訓(xùn)練設(shè)計(jì),,Helix可以在Figure機(jī)器人上進(jìn)行高效的模型并行部署,每個(gè)機(jī)器人都配備了雙低功耗嵌入式GPU,。推理流程在S2(高層潛規(guī)劃)和S1(低層控制)模型之間分割,,各自在專用GPU上運(yùn)行。S2作為異步后臺進(jìn)程運(yùn)行,,處理最新的觀察數(shù)據(jù)和自然語言命令,,持續(xù)更新共享內(nèi)存中的潛在向量。S1作為獨(dú)立的實(shí)時(shí)進(jìn)程執(zhí)行,,維持平滑的整體上半身動作所需的關(guān)鍵200Hz控制循環(huán),。
Helix以200Hz的頻率協(xié)調(diào)35個(gè)自由度的動作空間,控制從單個(gè)手指運(yùn)動到末端執(zhí)行器軌跡,、頭部注視和軀干姿態(tài)的所有動作,。頭部和軀干控制帶來獨(dú)特挑戰(zhàn),當(dāng)它們移動時(shí),,既會改變機(jī)器人的可達(dá)范圍,,也會改變可視范圍。機(jī)器人在調(diào)整軀干以獲得最佳可達(dá)范圍的同時(shí),,用頭部平滑地跟蹤其手部動作,,并保持精確的手指控制以進(jìn)行抓取。即使對于單個(gè)已知任務(wù),在如此高維的動作空間中實(shí)現(xiàn)這種精度一直被認(rèn)為是極具挑戰(zhàn)性的,。
Helix還在多智能體操作場景中展示了零樣本學(xué)習(xí)能力,,兩臺Figure機(jī)器人成功操作了在訓(xùn)練中從未見過的雜貨,展示了強(qiáng)大的通用泛化能力,。兩個(gè)機(jī)器人使用完全相同的Helix模型權(quán)重運(yùn)行,,無需針對特定機(jī)器人的訓(xùn)練或明確的角色分配。它們通過自然語言提示詞來實(shí)現(xiàn)協(xié)調(diào)配合,,比如“把餅干袋遞給你右邊的機(jī)器人”或“從你左邊的機(jī)器人那里接過餅干袋并放入打開的抽屜中”,。
研究人員發(fā)現(xiàn)配備Helix的Figure機(jī)器人只需一個(gè)簡單的“拾取[X]”指令就能拾取幾乎任何小型家居物品。即使在雜亂的環(huán)境下,,機(jī)器人也能成功處理從玻璃器皿和玩具到工具和衣物等數(shù)千件前所未見的物品,,而這一切無需任何事先示范或定制編程。Helix成功地連接了大規(guī)模語言理解能力與精確的機(jī)器人控制系統(tǒng),。這種通用的“語言到動作”抓取能力為類人機(jī)器人在復(fù)雜且不確定的非結(jié)構(gòu)化環(huán)境中的部署開創(chuàng)了激動人心的可能性,。
軟銀承諾每年花費(fèi)30億美元使用OpenAI的技術(shù)
2025-02-04 19:08:49SBOpenAI