拋棄OpenAI,F(xiàn)igure亮王牌:史上首次兩個(gè)機(jī)器人「共腦」,!Figure在與OpenAI分手后,,自主研發(fā)了首個(gè)模型Helix。這個(gè)視覺(jué)-語(yǔ)言-動(dòng)作模型被直接應(yīng)用于人形機(jī)器人大腦中,,讓機(jī)器人具備感知,、語(yǔ)言理解和學(xué)習(xí)控制的能力,是一個(gè)端到端的通用模型,。Figure的目標(biāo)是發(fā)展家庭機(jī)器人,,其內(nèi)部的AI需要像人一樣推理,處理各種家庭用品,。
Helix目前主要用于Figure上半身的控制,,包括手腕、頭部,、單個(gè)手指和軀干,,能夠以高速率執(zhí)行復(fù)雜任務(wù)。只需一句話,,機(jī)器人就可以拿起任何物品,。例如,當(dāng)被要求“撿起沙漠物品”時(shí),,Helix會(huì)識(shí)別出玩具仙人掌,,選擇最近的手,并執(zhí)行精確的電機(jī)指令來(lái)抓住它,。
拋棄OpenAI,F(xiàn)igure亮王牌:史上首次兩個(gè)機(jī)器人「共腦」
此外,,Helix還能精準(zhǔn)地處理生活中的各種小物件,,如金屬鏈、帽子,、玩具等,。它還可以將物品放置在冰箱里,,而且兩個(gè)Figure機(jī)器人可以協(xié)作完成這一任務(wù)。Helix是首個(gè)同時(shí)操控兩臺(tái)機(jī)器人的VLA,,使它們能夠解決共同的長(zhǎng)序列操作任務(wù),,即使面對(duì)從未見(jiàn)過(guò)的物品也能應(yīng)對(duì)自如。
新款模型采用單一神經(jīng)網(wǎng)絡(luò)權(quán)重學(xué)習(xí)所有行為,,無(wú)需特定微調(diào)。它還是首款完全在嵌入式低功耗GPU上運(yùn)行的VLA,,未來(lái)商業(yè)部署甚至進(jìn)入家庭指日可待,。家庭環(huán)境對(duì)機(jī)器人技術(shù)來(lái)說(shuō)是巨大挑戰(zhàn),因?yàn)榧抑谐錆M了無(wú)數(shù)不可預(yù)測(cè)形狀,、尺寸,、顏色和質(zhì)地的物品。為了讓機(jī)器人在家庭中發(fā)揮作用,,它們需要生成智能化的新行為來(lái)應(yīng)對(duì)各種情況,,特別是那些從未見(jiàn)過(guò)的物品。
當(dāng)前,,教會(huì)機(jī)器人一個(gè)新行為需要大量人力投入,,要么博士級(jí)專家手動(dòng)編程,要么數(shù)千次示教,。這兩種方法的成本都難以承受,。但通過(guò)Helix,只需通過(guò)自然語(yǔ)言即可實(shí)時(shí)定義新技能,。這種能力將從根本上改變機(jī)器人技術(shù)的發(fā)展軌跡,。突然間,曾經(jīng)需要數(shù)百次示教才能掌握的新技能,,現(xiàn)在只需通過(guò)自然語(yǔ)言與機(jī)器人對(duì)話就能立即獲得。
Helix由“系統(tǒng)1”和“系統(tǒng)2”組成,,可以實(shí)現(xiàn)人形機(jī)器人上半身的高速精確控制,。系統(tǒng)2(S2)是VLM主干網(wǎng)絡(luò),工作頻率7-9Hz,,用于場(chǎng)景和語(yǔ)言理解,;系統(tǒng)1(S2)是80M參數(shù)交叉注意力Transformer,依靠全卷積多尺度視覺(jué)主干網(wǎng)絡(luò)進(jìn)行視覺(jué)處理,。這種解耦架構(gòu)讓每個(gè)系統(tǒng)都能在最佳時(shí)間尺度上運(yùn)行,,S2可以“慢思考”高層目標(biāo),S1通過(guò)“快思考”來(lái)實(shí)時(shí)執(zhí)行和調(diào)整動(dòng)作,。
Helix不僅達(dá)到了專門針對(duì)單任務(wù)行為克隆策略的運(yùn)行速度,,還能夠?qū)?shù)千個(gè)全新測(cè)試對(duì)象實(shí)現(xiàn)零樣本學(xué)習(xí)。它可以直接輸出高維動(dòng)作空間的連續(xù)控制,避免了先前VLA方法中使用的復(fù)雜動(dòng)作token化方案,。Helix采用標(biāo)準(zhǔn)架構(gòu),,系統(tǒng)2使用開(kāi)源開(kāi)放權(quán)重的視覺(jué)語(yǔ)言模型,系統(tǒng)1則采用簡(jiǎn)單的基于Transformer的視覺(jué)運(yùn)動(dòng)策略,。通過(guò)S1和S2的“解耦”,,能夠獨(dú)立迭代優(yōu)化每個(gè)系統(tǒng),無(wú)需受限于尋找統(tǒng)一的觀察空間或動(dòng)作表示,。
研究人員收集了一個(gè)高質(zhì)量的多樣化遙操作行為數(shù)據(jù)集,總計(jì)約500小時(shí),。為了生成自然語(yǔ)言條件下的訓(xùn)練對(duì),,他們使用自動(dòng)標(biāo)注VLM來(lái)生成回顧性指令。S2建立在一個(gè)經(jīng)過(guò)互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)預(yù)訓(xùn)練的7B參數(shù)開(kāi)源開(kāi)放權(quán)重VLM之上,,處理單目機(jī)器人圖像和機(jī)器人狀態(tài)信息,,將其投影到視覺(jué)-語(yǔ)言嵌入空間中。結(jié)合指定期望行為的自然語(yǔ)言命令,,S2將所有與任務(wù)相關(guān)的語(yǔ)義信息提煉為單個(gè)連續(xù)潛層向量,,傳遞給S1用于條件化其低層動(dòng)作。
S1是一個(gè)80M參數(shù)的交叉注意力編碼器-解碼器Transformer,,負(fù)責(zé)低層控制。它依賴于一個(gè)全卷積的多尺度視覺(jué)主干網(wǎng)絡(luò)進(jìn)行視覺(jué)處理,。雖然S1接收與S2相同的圖像和狀態(tài)輸入,,但它以更高的頻率處理這些信息,以實(shí)現(xiàn)更快速的閉環(huán)控制,。來(lái)自S2的潛層向量被投影到S1的token空間,,并在序列維度上與S1視覺(jué)主干網(wǎng)絡(luò)的視覺(jué)特征連接,提供任務(wù)條件,。S1以200Hz的頻率輸出完整的上半身人形機(jī)器人控制信號(hào),,包括期望的手腕姿態(tài)、手指彎曲和外展控制,,以及軀干和頭部方向目標(biāo),。
Helix采用完全端到端的訓(xùn)練方式,,將原始像素和文本命令映射到連續(xù)動(dòng)作,,使用標(biāo)準(zhǔn)回歸損失。梯度通過(guò)用于條件化S1行為的潛在通信向量從S1反向傳播到S2,,實(shí)現(xiàn)兩個(gè)組件的聯(lián)合優(yōu)化,。Helix不需要任務(wù)特定的適配,;它保持單一訓(xùn)練階段和單一神經(jīng)網(wǎng)絡(luò)權(quán)重集,無(wú)需獨(dú)立的動(dòng)作輸出頭或每個(gè)任務(wù)的微調(diào)階段,。
由于這種訓(xùn)練設(shè)計(jì),Helix可以在Figure機(jī)器人上進(jìn)行高效的模型并行部署,,每個(gè)機(jī)器人都配備了雙低功耗嵌入式GPU,。推理流程在S2(高層潛規(guī)劃)和S1(低層控制)模型之間分割,各自在專用GPU上運(yùn)行,。S2作為異步后臺(tái)進(jìn)程運(yùn)行,,處理最新的觀察數(shù)據(jù)和自然語(yǔ)言命令,持續(xù)更新共享內(nèi)存中的潛在向量,。S1作為獨(dú)立的實(shí)時(shí)進(jìn)程執(zhí)行,,維持平滑的整體上半身動(dòng)作所需的關(guān)鍵200Hz控制循環(huán)。
Helix以200Hz的頻率協(xié)調(diào)35個(gè)自由度的動(dòng)作空間,,控制從單個(gè)手指運(yùn)動(dòng)到末端執(zhí)行器軌跡、頭部注視和軀干姿態(tài)的所有動(dòng)作,。頭部和軀干控制帶來(lái)獨(dú)特挑戰(zhàn),,當(dāng)它們移動(dòng)時(shí),既會(huì)改變機(jī)器人的可達(dá)范圍,,也會(huì)改變可視范圍,。機(jī)器人在調(diào)整軀干以獲得最佳可達(dá)范圍的同時(shí),用頭部平滑地跟蹤其手部動(dòng)作,,并保持精確的手指控制以進(jìn)行抓取,。即使對(duì)于單個(gè)已知任務(wù),在如此高維的動(dòng)作空間中實(shí)現(xiàn)這種精度一直被認(rèn)為是極具挑戰(zhàn)性的,。
Helix還在多智能體操作場(chǎng)景中展示了零樣本學(xué)習(xí)能力,,兩臺(tái)Figure機(jī)器人成功操作了在訓(xùn)練中從未見(jiàn)過(guò)的雜貨,展示了強(qiáng)大的通用泛化能力,。兩個(gè)機(jī)器人使用完全相同的Helix模型權(quán)重運(yùn)行,,無(wú)需針對(duì)特定機(jī)器人的訓(xùn)練或明確的角色分配。它們通過(guò)自然語(yǔ)言提示詞來(lái)實(shí)現(xiàn)協(xié)調(diào)配合,,比如“把餅干袋遞給你右邊的機(jī)器人”或“從你左邊的機(jī)器人那里接過(guò)餅干袋并放入打開(kāi)的抽屜中”。
研究人員發(fā)現(xiàn)配備Helix的Figure機(jī)器人只需一個(gè)簡(jiǎn)單的“拾取[X]”指令就能拾取幾乎任何小型家居物品,。即使在雜亂的環(huán)境下,,機(jī)器人也能成功處理從玻璃器皿和玩具到工具和衣物等數(shù)千件前所未見(jiàn)的物品,而這一切無(wú)需任何事先示范或定制編程,。Helix成功地連接了大規(guī)模語(yǔ)言理解能力與精確的機(jī)器人控制系統(tǒng),。這種通用的“語(yǔ)言到動(dòng)作”抓取能力為類人機(jī)器人在復(fù)雜且不確定的非結(jié)構(gòu)化環(huán)境中的部署開(kāi)創(chuàng)了激動(dòng)人心的可能性,。
軟銀承諾每年花費(fèi)30億美元使用OpenAI的技術(shù)
2025-02-04 19:08:49SBOpenAI