拋棄OpenAI,，F(xiàn)igure亮王牌：史上首次兩個(gè)機(jī)器人「共腦」

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-02-22 00:49:07 澎湃新聞

拋棄OpenAI,，F(xiàn)igure亮王牌：史上首次兩個(gè)機(jī)器人「共腦」,！Figure在與OpenAI分手后,，自主研發(fā)了首個(gè)模型Helix,。這個(gè)視覺-語言-動(dòng)作模型被直接應(yīng)用于人形機(jī)器人大腦中,，讓機(jī)器人具備感知,、語言理解和學(xué)習(xí)控制的能力,，是一個(gè)端到端的通用模型,。Figure的目標(biāo)是發(fā)展家庭機(jī)器人,，其內(nèi)部的AI需要像人一樣推理，處理各種家庭用品,。

Helix目前主要用于Figure上半身的控制,，包括手腕、頭部,、單個(gè)手指和軀干,，能夠以高速率執(zhí)行復(fù)雜任務(wù)。只需一句話,，機(jī)器人就可以拿起任何物品,。例如，當(dāng)被要求“撿起沙漠物品”時(shí),，Helix會(huì)識(shí)別出玩具仙人掌,，選擇最近的手,，并執(zhí)行精確的電機(jī)指令來抓住它。

拋棄OpenAI,，F(xiàn)igure亮王牌：史上首次兩個(gè)機(jī)器人「共腦」

此外,，Helix還能精準(zhǔn)地處理生活中的各種小物件，如金屬鏈,、帽子,、玩具等。它還可以將物品放置在冰箱里,，而且兩個(gè)Figure機(jī)器人可以協(xié)作完成這一任務(wù),。Helix是首個(gè)同時(shí)操控兩臺(tái)機(jī)器人的VLA，使它們能夠解決共同的長(zhǎng)序列操作任務(wù),，即使面對(duì)從未見過的物品也能應(yīng)對(duì)自如,。

新款模型采用單一神經(jīng)網(wǎng)絡(luò)權(quán)重學(xué)習(xí)所有行為，無需特定微調(diào),。它還是首款完全在嵌入式低功耗GPU上運(yùn)行的VLA,，未來商業(yè)部署甚至進(jìn)入家庭指日可待。家庭環(huán)境對(duì)機(jī)器人技術(shù)來說是巨大挑戰(zhàn),，因?yàn)榧抑谐錆M了無數(shù)不可預(yù)測(cè)形狀,、尺寸、顏色和質(zhì)地的物品,。為了讓機(jī)器人在家庭中發(fā)揮作用,，它們需要生成智能化的新行為來應(yīng)對(duì)各種情況,，特別是那些從未見過的物品,。

當(dāng)前，教會(huì)機(jī)器人一個(gè)新行為需要大量人力投入,，要么博士級(jí)專家手動(dòng)編程,，要么數(shù)千次示教。這兩種方法的成本都難以承受,。但通過Helix,，只需通過自然語言即可實(shí)時(shí)定義新技能。這種能力將從根本上改變機(jī)器人技術(shù)的發(fā)展軌跡,。突然間,，曾經(jīng)需要數(shù)百次示教才能掌握的新技能，現(xiàn)在只需通過自然語言與機(jī)器人對(duì)話就能立即獲得,。

Helix由“系統(tǒng)1”和“系統(tǒng)2”組成,，可以實(shí)現(xiàn)人形機(jī)器人上半身的高速精確控制。系統(tǒng)2（S2）是VLM主干網(wǎng)絡(luò),，工作頻率7-9Hz,，用于場(chǎng)景和語言理解,；系統(tǒng)1（S2）是80M參數(shù)交叉注意力Transformer，依靠全卷積多尺度視覺主干網(wǎng)絡(luò)進(jìn)行視覺處理,。這種解耦架構(gòu)讓每個(gè)系統(tǒng)都能在最佳時(shí)間尺度上運(yùn)行,，S2可以“慢思考”高層目標(biāo)，S1通過“快思考”來實(shí)時(shí)執(zhí)行和調(diào)整動(dòng)作,。

Helix不僅達(dá)到了專門針對(duì)單任務(wù)行為克隆策略的運(yùn)行速度,，還能夠?qū)?shù)千個(gè)全新測(cè)試對(duì)象實(shí)現(xiàn)零樣本學(xué)習(xí)。它可以直接輸出高維動(dòng)作空間的連續(xù)控制,，避免了先前VLA方法中使用的復(fù)雜動(dòng)作token化方案,。Helix采用標(biāo)準(zhǔn)架構(gòu)，系統(tǒng)2使用開源開放權(quán)重的視覺語言模型,，系統(tǒng)1則采用簡(jiǎn)單的基于Transformer的視覺運(yùn)動(dòng)策略,。通過S1和S2的“解耦”，能夠獨(dú)立迭代優(yōu)化每個(gè)系統(tǒng),，無需受限于尋找統(tǒng)一的觀察空間或動(dòng)作表示,。

研究人員收集了一個(gè)高質(zhì)量的多樣化遙操作行為數(shù)據(jù)集，總計(jì)約500小時(shí),。為了生成自然語言條件下的訓(xùn)練對(duì),，他們使用自動(dòng)標(biāo)注VLM來生成回顧性指令。S2建立在一個(gè)經(jīng)過互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)預(yù)訓(xùn)練的7B參數(shù)開源開放權(quán)重VLM之上,，處理單目機(jī)器人圖像和機(jī)器人狀態(tài)信息,，將其投影到視覺-語言嵌入空間中。結(jié)合指定期望行為的自然語言命令,，S2將所有與任務(wù)相關(guān)的語義信息提煉為單個(gè)連續(xù)潛層向量,，傳遞給S1用于條件化其低層動(dòng)作。

S1是一個(gè)80M參數(shù)的交叉注意力編碼器-解碼器Transformer,，負(fù)責(zé)低層控制,。它依賴于一個(gè)全卷積的多尺度視覺主干網(wǎng)絡(luò)進(jìn)行視覺處理。雖然S1接收與S2相同的圖像和狀態(tài)輸入,，但它以更高的頻率處理這些信息,，以實(shí)現(xiàn)更快速的閉環(huán)控制。來自S2的潛層向量被投影到S1的token空間,，并在序列維度上與S1視覺主干網(wǎng)絡(luò)的視覺特征連接,，提供任務(wù)條件。S1以200Hz的頻率輸出完整的上半身人形機(jī)器人控制信號(hào),，包括期望的手腕姿態(tài),、手指彎曲和外展控制，以及軀干和頭部方向目標(biāo)。

Helix采用完全端到端的訓(xùn)練方式,，將原始像素和文本命令映射到連續(xù)動(dòng)作,，使用標(biāo)準(zhǔn)回歸損失。梯度通過用于條件化S1行為的潛在通信向量從S1反向傳播到S2,，實(shí)現(xiàn)兩個(gè)組件的聯(lián)合優(yōu)化,。Helix不需要任務(wù)特定的適配；它保持單一訓(xùn)練階段和單一神經(jīng)網(wǎng)絡(luò)權(quán)重集,，無需獨(dú)立的動(dòng)作輸出頭或每個(gè)任務(wù)的微調(diào)階段,。

由于這種訓(xùn)練設(shè)計(jì)，Helix可以在Figure機(jī)器人上進(jìn)行高效的模型并行部署,，每個(gè)機(jī)器人都配備了雙低功耗嵌入式GPU,。推理流程在S2（高層潛規(guī)劃）和S1（低層控制）模型之間分割，各自在專用GPU上運(yùn)行,。S2作為異步后臺(tái)進(jìn)程運(yùn)行,，處理最新的觀察數(shù)據(jù)和自然語言命令，持續(xù)更新共享內(nèi)存中的潛在向量,。S1作為獨(dú)立的實(shí)時(shí)進(jìn)程執(zhí)行,，維持平滑的整體上半身動(dòng)作所需的關(guān)鍵200Hz控制循環(huán)。

Helix以200Hz的頻率協(xié)調(diào)35個(gè)自由度的動(dòng)作空間,，控制從單個(gè)手指運(yùn)動(dòng)到末端執(zhí)行器軌跡,、頭部注視和軀干姿態(tài)的所有動(dòng)作。頭部和軀干控制帶來獨(dú)特挑戰(zhàn),，當(dāng)它們移動(dòng)時(shí),，既會(huì)改變機(jī)器人的可達(dá)范圍，也會(huì)改變可視范圍,。機(jī)器人在調(diào)整軀干以獲得最佳可達(dá)范圍的同時(shí),，用頭部平滑地跟蹤其手部動(dòng)作，并保持精確的手指控制以進(jìn)行抓取,。即使對(duì)于單個(gè)已知任務(wù),，在如此高維的動(dòng)作空間中實(shí)現(xiàn)這種精度一直被認(rèn)為是極具挑戰(zhàn)性的,。

Helix還在多智能體操作場(chǎng)景中展示了零樣本學(xué)習(xí)能力,，兩臺(tái)Figure機(jī)器人成功操作了在訓(xùn)練中從未見過的雜貨，展示了強(qiáng)大的通用泛化能力,。兩個(gè)機(jī)器人使用完全相同的Helix模型權(quán)重運(yùn)行,，無需針對(duì)特定機(jī)器人的訓(xùn)練或明確的角色分配。它們通過自然語言提示詞來實(shí)現(xiàn)協(xié)調(diào)配合,，比如“把餅干袋遞給你右邊的機(jī)器人”或“從你左邊的機(jī)器人那里接過餅干袋并放入打開的抽屜中”,。

研究人員發(fā)現(xiàn)配備Helix的Figure機(jī)器人只需一個(gè)簡(jiǎn)單的“拾取[X]”指令就能拾取幾乎任何小型家居物品。即使在雜亂的環(huán)境下，機(jī)器人也能成功處理從玻璃器皿和玩具到工具和衣物等數(shù)千件前所未見的物品,，而這一切無需任何事先示范或定制編程,。Helix成功地連接了大規(guī)模語言理解能力與精確的機(jī)器人控制系統(tǒng)。這種通用的“語言到動(dòng)作”抓取能力為類人機(jī)器人在復(fù)雜且不確定的非結(jié)構(gòu)化環(huán)境中的部署開創(chuàng)了激動(dòng)人心的可能性,。

(責(zé)任編輯：盧其龍 CN070)

關(guān)閉

拋棄OpenAI,，F(xiàn)igure亮王牌：史上首次兩個(gè)機(jī)器人「共腦」

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)