稚暉君搞了個(gè)“好東西”,,網(wǎng)上的視頻也能拿來訓(xùn)練機(jī)器人了 提高復(fù)雜任務(wù)成功率!上周五,,稚暉君在微博預(yù)告了一波“好東西”,。周一,智元機(jī)器人就展示了新產(chǎn)品,。這款機(jī)器人能夠端茶倒水,、煮咖啡,還能把面包放進(jìn)面包機(jī),,涂抹果醬,,并將面包端到面前。此外,,它還可以充當(dāng)迎賓前臺(tái),。
不過,這些功能在現(xiàn)今的人形機(jī)器人視頻中已不罕見,。真正值得關(guān)注的是智元機(jī)器人發(fā)布的基座大模型GO-1(Genie Operator-1),。這個(gè)大模型解決了人形機(jī)器人長期以來面臨的數(shù)據(jù)匱乏和泛化能力差的問題。
目前,,人形機(jī)器人表現(xiàn)不佳的一個(gè)重要原因就是缺乏高質(zhì)量數(shù)據(jù),,而獲取這些數(shù)據(jù)的成本非常高。去年底,,智元機(jī)器人開源了百萬真機(jī)數(shù)據(jù)集AgiBot World,,涵蓋了超過100萬條軌跡、217個(gè)任務(wù)和106個(gè)場景,。盡管如此,,這些數(shù)據(jù)仍然不足以解決機(jī)器人泛化能力差的問題。
為此,,智元機(jī)器人提出了新的ViLLA(Vision-Language-Latent-Action)架構(gòu),,這是GO-1大模型的核心,。與傳統(tǒng)的VLA架構(gòu)不同,ViLLA架構(gòu)不僅依賴于大量標(biāo)注過的真機(jī)數(shù)據(jù),,還能利用互聯(lián)網(wǎng)上的大量人類視頻數(shù)據(jù),。這意味著基于GO-1大模型的機(jī)器人可以通過觀看視頻來學(xué)習(xí)相應(yīng)動(dòng)作。
具體來說,,ViLLA架構(gòu)由VLM(多模態(tài)大模型)和MoE(混合專家)組成,。VLM處理輸入的視頻數(shù)據(jù),潛在動(dòng)作模型將其拆解成關(guān)鍵步驟,,如“抓取”,、“移動(dòng)”和“喝水”。接著,,隱式規(guī)劃器進(jìn)一步細(xì)化這些步驟,,生成更詳細(xì)的指令。最后,,動(dòng)作專家將這些指令轉(zhuǎn)換成機(jī)器人可以理解并執(zhí)行的動(dòng)作信號(hào),。
相比傳統(tǒng)VLA架構(gòu),ViLLA架構(gòu)在執(zhí)行復(fù)雜任務(wù)時(shí)表現(xiàn)更出色,,且任務(wù)泛化能力更強(qiáng),。此外,ViLLA架構(gòu)生成的是通用動(dòng)作標(biāo)記,,不依賴特定硬件,,更容易遷移到其他機(jī)器人平臺(tái)。
GO-1使機(jī)器人能夠從互聯(lián)網(wǎng)上的人類視頻數(shù)據(jù)中學(xué)習(xí),,并具備拆解任務(wù)的能力,,提高了復(fù)雜任務(wù)的成功率和泛化能力。如果GO-1的效果如官方描述,,這將是整個(gè)人形機(jī)器人行業(yè)的一大進(jìn)步,。至于智元是否會(huì)繼續(xù)開源GO-1,還有待觀察,。聽說智元機(jī)器人明天還將公布一個(gè)驚喜,,讓我們拭目以待。