Helix由“系統(tǒng)1”和“系統(tǒng)2”組成,,可以實現(xiàn)人形機器人上半身的高速精確控制。系統(tǒng)2(S2)是VLM主干網(wǎng)絡(luò),,工作頻率7-9Hz,,用于場景和語言理解;系統(tǒng)1(S2)是80M參數(shù)交叉注意力Transformer,,依靠全卷積多尺度視覺主干網(wǎng)絡(luò)進行視覺處理,。這種解耦架構(gòu)讓每個系統(tǒng)都能在最佳時間尺度上運行,S2可以“慢思考”高層目標(biāo),,S1通過“快思考”來實時執(zhí)行和調(diào)整動作,。
Helix不僅達到了專門針對單任務(wù)行為克隆策略的運行速度,還能夠?qū)?shù)千個全新測試對象實現(xiàn)零樣本學(xué)習(xí),。它可以直接輸出高維動作空間的連續(xù)控制,,避免了先前VLA方法中使用的復(fù)雜動作token化方案。Helix采用標(biāo)準架構(gòu),,系統(tǒng)2使用開源開放權(quán)重的視覺語言模型,,系統(tǒng)1則采用簡單的基于Transformer的視覺運動策略。通過S1和S2的“解耦”,,能夠獨立迭代優(yōu)化每個系統(tǒng),,無需受限于尋找統(tǒng)一的觀察空間或動作表示,。
研究人員收集了一個高質(zhì)量的多樣化遙操作行為數(shù)據(jù)集,總計約500小時,。為了生成自然語言條件下的訓(xùn)練對,,他們使用自動標(biāo)注VLM來生成回顧性指令。S2建立在一個經(jīng)過互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)預(yù)訓(xùn)練的7B參數(shù)開源開放權(quán)重VLM之上,,處理單目機器人圖像和機器人狀態(tài)信息,,將其投影到視覺-語言嵌入空間中。結(jié)合指定期望行為的自然語言命令,,S2將所有與任務(wù)相關(guān)的語義信息提煉為單個連續(xù)潛層向量,,傳遞給S1用于條件化其低層動作。
S1是一個80M參數(shù)的交叉注意力編碼器-解碼器Transformer,,負責(zé)低層控制,。它依賴于一個全卷積的多尺度視覺主干網(wǎng)絡(luò)進行視覺處理。雖然S1接收與S2相同的圖像和狀態(tài)輸入,,但它以更高的頻率處理這些信息,,以實現(xiàn)更快速的閉環(huán)控制。來自S2的潛層向量被投影到S1的token空間,,并在序列維度上與S1視覺主干網(wǎng)絡(luò)的視覺特征連接,,提供任務(wù)條件。S1以200Hz的頻率輸出完整的上半身人形機器人控制信號,,包括期望的手腕姿態(tài),、手指彎曲和外展控制,以及軀干和頭部方向目標(biāo),。