S1是一個80M參數(shù)的交叉注意力編碼器-解碼器Transformer,,負責(zé)低層控制。它依賴于一個全卷積的多尺度視覺主干網(wǎng)絡(luò)進行視覺處理,。雖然S1接收與S2相同的圖像和狀態(tài)輸入,,但它以更高的頻率處理這些信息,以實現(xiàn)更快速的閉環(huán)控制,。來自S2的潛層向量被投影到S1的token空間,,并在序列維度上與S1視覺主干網(wǎng)絡(luò)的視覺特征連接,提供任務(wù)條件,。S1以200Hz的頻率輸出完整的上半身人形機器人控制信號,,包括期望的手腕姿態(tài)、手指彎曲和外展控制,,以及軀干和頭部方向目標(biāo),。
Helix采用完全端到端的訓(xùn)練方式,,將原始像素和文本命令映射到連續(xù)動作,,使用標(biāo)準(zhǔn)回歸損失。梯度通過用于條件化S1行為的潛在通信向量從S1反向傳播到S2,,實現(xiàn)兩個組件的聯(lián)合優(yōu)化,。Helix不需要任務(wù)特定的適配;它保持單一訓(xùn)練階段和單一神經(jīng)網(wǎng)絡(luò)權(quán)重集,,無需獨立的動作輸出頭或每個任務(wù)的微調(diào)階段,。
由于這種訓(xùn)練設(shè)計,,Helix可以在Figure機器人上進行高效的模型并行部署,,每個機器人都配備了雙低功耗嵌入式GPU。推理流程在S2(高層潛規(guī)劃)和S1(低層控制)模型之間分割,,各自在專用GPU上運行,。S2作為異步后臺進程運行,處理最新的觀察數(shù)據(jù)和自然語言命令,,持續(xù)更新共享內(nèi)存中的潛在向量,。S1作為獨立的實時進程執(zhí)行,,維持平滑的整體上半身動作所需的關(guān)鍵200Hz控制循環(huán)。