稚暉君搞了個(gè)“好東西”,,網(wǎng)上的視頻也能拿來(lái)訓(xùn)練機(jī)器人了 提高復(fù)雜任務(wù)成功率,!上周五,稚暉君在微博預(yù)告了一波“好東西”。周一,,智元機(jī)器人就展示了新產(chǎn)品。這款機(jī)器人能夠端茶倒水、煮咖啡,,還能把面包放進(jìn)面包機(jī),涂抹果醬,,并將面包端到面前,。此外,它還可以充當(dāng)迎賓前臺(tái),。
不過,,這些功能在現(xiàn)今的人形機(jī)器人視頻中已不罕見。真正值得關(guān)注的是智元機(jī)器人發(fā)布的基座大模型GO-1(Genie Operator-1),。這個(gè)大模型解決了人形機(jī)器人長(zhǎng)期以來(lái)面臨的數(shù)據(jù)匱乏和泛化能力差的問題,。
目前,人形機(jī)器人表現(xiàn)不佳的一個(gè)重要原因就是缺乏高質(zhì)量數(shù)據(jù),,而獲取這些數(shù)據(jù)的成本非常高,。去年底,智元機(jī)器人開源了百萬(wàn)真機(jī)數(shù)據(jù)集AgiBot World,,涵蓋了超過100萬(wàn)條軌跡,、217個(gè)任務(wù)和106個(gè)場(chǎng)景。盡管如此,,這些數(shù)據(jù)仍然不足以解決機(jī)器人泛化能力差的問題,。
為此,智元機(jī)器人提出了新的ViLLA(Vision-Language-Latent-Action)架構(gòu),,這是GO-1大模型的核心,。與傳統(tǒng)的VLA架構(gòu)不同,ViLLA架構(gòu)不僅依賴于大量標(biāo)注過的真機(jī)數(shù)據(jù),,還能利用互聯(lián)網(wǎng)上的大量人類視頻數(shù)據(jù),。這意味著基于GO-1大模型的機(jī)器人可以通過觀看視頻來(lái)學(xué)習(xí)相應(yīng)動(dòng)作。
具體來(lái)說,,ViLLA架構(gòu)由VLM(多模態(tài)大模型)和MoE(混合專家)組成,。VLM處理輸入的視頻數(shù)據(jù),潛在動(dòng)作模型將其拆解成關(guān)鍵步驟,,如“抓取”,、“移動(dòng)”和“喝水”,。接著,隱式規(guī)劃器進(jìn)一步細(xì)化這些步驟,,生成更詳細(xì)的指令,。最后,動(dòng)作專家將這些指令轉(zhuǎn)換成機(jī)器人可以理解并執(zhí)行的動(dòng)作信號(hào),。
相比傳統(tǒng)VLA架構(gòu),,ViLLA架構(gòu)在執(zhí)行復(fù)雜任務(wù)時(shí)表現(xiàn)更出色,且任務(wù)泛化能力更強(qiáng),。此外,,ViLLA架構(gòu)生成的是通用動(dòng)作標(biāo)記,不依賴特定硬件,,更容易遷移到其他機(jī)器人平臺(tái),。
GO-1使機(jī)器人能夠從互聯(lián)網(wǎng)上的人類視頻數(shù)據(jù)中學(xué)習(xí),并具備拆解任務(wù)的能力,,提高了復(fù)雜任務(wù)的成功率和泛化能力,。如果GO-1的效果如官方描述,這將是整個(gè)人形機(jī)器人行業(yè)的一大進(jìn)步,。至于智元是否會(huì)繼續(xù)開源GO-1,,還有待觀察。聽說智元機(jī)器人明天還將公布一個(gè)驚喜,,讓我們拭目以待,。