Helix由“系統(tǒng)1”和“系統(tǒng)2”組成,可以實現(xiàn)人形機器人上半身的高速精確控制,。系統(tǒng)2(S2)是VLM主干網(wǎng)絡,,工作頻率7-9Hz,用于場景和語言理解,;系統(tǒng)1(S2)是80M參數(shù)交叉注意力Transformer,,依靠全卷積多尺度視覺主干網(wǎng)絡進行視覺處理。這種解耦架構讓每個系統(tǒng)都能在最佳時間尺度上運行,,S2可以“慢思考”高層目標,,S1通過“快思考”來實時執(zhí)行和調整動作。
Helix不僅達到了專門針對單任務行為克隆策略的運行速度,,還能夠對數(shù)千個全新測試對象實現(xiàn)零樣本學習,。它可以直接輸出高維動作空間的連續(xù)控制,避免了先前VLA方法中使用的復雜動作token化方案,。Helix采用標準架構,,系統(tǒng)2使用開源開放權重的視覺語言模型,系統(tǒng)1則采用簡單的基于Transformer的視覺運動策略,。通過S1和S2的“解耦”,,能夠獨立迭代優(yōu)化每個系統(tǒng),無需受限于尋找統(tǒng)一的觀察空間或動作表示,。
研究人員收集了一個高質量的多樣化遙操作行為數(shù)據(jù)集,,總計約500小時,。為了生成自然語言條件下的訓練對,他們使用自動標注VLM來生成回顧性指令,。S2建立在一個經過互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)預訓練的7B參數(shù)開源開放權重VLM之上,,處理單目機器人圖像和機器人狀態(tài)信息,將其投影到視覺-語言嵌入空間中,。結合指定期望行為的自然語言命令,,S2將所有與任務相關的語義信息提煉為單個連續(xù)潛層向量,傳遞給S1用于條件化其低層動作,。
S1是一個80M參數(shù)的交叉注意力編碼器-解碼器Transformer,,負責低層控制。它依賴于一個全卷積的多尺度視覺主干網(wǎng)絡進行視覺處理,。雖然S1接收與S2相同的圖像和狀態(tài)輸入,,但它以更高的頻率處理這些信息,以實現(xiàn)更快速的閉環(huán)控制,。來自S2的潛層向量被投影到S1的token空間,,并在序列維度上與S1視覺主干網(wǎng)絡的視覺特征連接,提供任務條件,。S1以200Hz的頻率輸出完整的上半身人形機器人控制信號,,包括期望的手腕姿態(tài)、手指彎曲和外展控制,,以及軀干和頭部方向目標,。
11月29日,,加拿大多家主流媒體因侵犯版權問題對開發(fā)ChatGPT的美國開放人工智能研究中心OpenAI聯(lián)合提起訴訟。此前,,美國《紐約時報》也以類似理由將OpenAI告上法庭
2024-12-01 13:39:00OpenAI被提起訴訟