拋棄OpenAI,,F(xiàn)igure亮王牌:史上首次兩個(gè)機(jī)器人「共腦」,!Figure在與OpenAI分手后,自主研發(fā)了首個(gè)模型Helix,。這個(gè)視覺(jué)-語(yǔ)言-動(dòng)作模型被直接應(yīng)用于人形機(jī)器人大腦中,,讓機(jī)器人具備感知、語(yǔ)言理解和學(xué)習(xí)控制的能力,,是一個(gè)端到端的通用模型,。Figure的目標(biāo)是發(fā)展家庭機(jī)器人,其內(nèi)部的AI需要像人一樣推理,,處理各種家庭用品,。
Helix目前主要用于Figure上半身的控制,包括手腕,、頭部,、單個(gè)手指和軀干,能夠以高速率執(zhí)行復(fù)雜任務(wù),。只需一句話,,機(jī)器人就可以拿起任何物品,。例如,當(dāng)被要求“撿起沙漠物品”時(shí),,Helix會(huì)識(shí)別出玩具仙人掌,,選擇最近的手,并執(zhí)行精確的電機(jī)指令來(lái)抓住它,。
拋棄OpenAI,F(xiàn)igure亮王牌:史上首次兩個(gè)機(jī)器人「共腦」
此外,,Helix還能精準(zhǔn)地處理生活中的各種小物件,,如金屬鏈、帽子,、玩具等,。它還可以將物品放置在冰箱里,而且兩個(gè)Figure機(jī)器人可以協(xié)作完成這一任務(wù),。Helix是首個(gè)同時(shí)操控兩臺(tái)機(jī)器人的VLA,,使它們能夠解決共同的長(zhǎng)序列操作任務(wù),即使面對(duì)從未見(jiàn)過(guò)的物品也能應(yīng)對(duì)自如,。
新款模型采用單一神經(jīng)網(wǎng)絡(luò)權(quán)重學(xué)習(xí)所有行為,無(wú)需特定微調(diào),。它還是首款完全在嵌入式低功耗GPU上運(yùn)行的VLA,,未來(lái)商業(yè)部署甚至進(jìn)入家庭指日可待。家庭環(huán)境對(duì)機(jī)器人技術(shù)來(lái)說(shuō)是巨大挑戰(zhàn),,因?yàn)榧抑谐錆M了無(wú)數(shù)不可預(yù)測(cè)形狀,、尺寸、顏色和質(zhì)地的物品,。為了讓機(jī)器人在家庭中發(fā)揮作用,,它們需要生成智能化的新行為來(lái)應(yīng)對(duì)各種情況,特別是那些從未見(jiàn)過(guò)的物品,。
當(dāng)前,,教會(huì)機(jī)器人一個(gè)新行為需要大量人力投入,要么博士級(jí)專家手動(dòng)編程,,要么數(shù)千次示教,。這兩種方法的成本都難以承受。但通過(guò)Helix,,只需通過(guò)自然語(yǔ)言即可實(shí)時(shí)定義新技能,。這種能力將從根本上改變機(jī)器人技術(shù)的發(fā)展軌跡。突然間,曾經(jīng)需要數(shù)百次示教才能掌握的新技能,,現(xiàn)在只需通過(guò)自然語(yǔ)言與機(jī)器人對(duì)話就能立即獲得,。
Helix由“系統(tǒng)1”和“系統(tǒng)2”組成,可以實(shí)現(xiàn)人形機(jī)器人上半身的高速精確控制,。系統(tǒng)2(S2)是VLM主干網(wǎng)絡(luò),,工作頻率7-9Hz,用于場(chǎng)景和語(yǔ)言理解,;系統(tǒng)1(S2)是80M參數(shù)交叉注意力Transformer,,依靠全卷積多尺度視覺(jué)主干網(wǎng)絡(luò)進(jìn)行視覺(jué)處理。這種解耦架構(gòu)讓每個(gè)系統(tǒng)都能在最佳時(shí)間尺度上運(yùn)行,,S2可以“慢思考”高層目標(biāo),,S1通過(guò)“快思考”來(lái)實(shí)時(shí)執(zhí)行和調(diào)整動(dòng)作。
Helix不僅達(dá)到了專門針對(duì)單任務(wù)行為克隆策略的運(yùn)行速度,,還能夠?qū)?shù)千個(gè)全新測(cè)試對(duì)象實(shí)現(xiàn)零樣本學(xué)習(xí),。它可以直接輸出高維動(dòng)作空間的連續(xù)控制,避免了先前VLA方法中使用的復(fù)雜動(dòng)作token化方案,。Helix采用標(biāo)準(zhǔn)架構(gòu),,系統(tǒng)2使用開(kāi)源開(kāi)放權(quán)重的視覺(jué)語(yǔ)言模型,系統(tǒng)1則采用簡(jiǎn)單的基于Transformer的視覺(jué)運(yùn)動(dòng)策略,。通過(guò)S1和S2的“解耦”,,能夠獨(dú)立迭代優(yōu)化每個(gè)系統(tǒng),無(wú)需受限于尋找統(tǒng)一的觀察空間或動(dòng)作表示,。
研究人員收集了一個(gè)高質(zhì)量的多樣化遙操作行為數(shù)據(jù)集,,總計(jì)約500小時(shí),。為了生成自然語(yǔ)言條件下的訓(xùn)練對(duì),他們使用自動(dòng)標(biāo)注VLM來(lái)生成回顧性指令,。S2建立在一個(gè)經(jīng)過(guò)互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)預(yù)訓(xùn)練的7B參數(shù)開(kāi)源開(kāi)放權(quán)重VLM之上,,處理單目機(jī)器人圖像和機(jī)器人狀態(tài)信息,將其投影到視覺(jué)-語(yǔ)言嵌入空間中,。結(jié)合指定期望行為的自然語(yǔ)言命令,,S2將所有與任務(wù)相關(guān)的語(yǔ)義信息提煉為單個(gè)連續(xù)潛層向量,傳遞給S1用于條件化其低層動(dòng)作,。
軟銀承諾每年花費(fèi)30億美元使用OpenAI的技術(shù)
2025-02-04 19:08:49SBOpenAI