微軟的研究團(tuán)隊(duì)最近在國際頂級學(xué)術(shù)期刊Nature上發(fā)表了一項(xiàng)新成果,,名為Muse的視頻游戲生成模型,。該模型基于近七年的游戲數(shù)據(jù)進(jìn)行訓(xùn)練,,參數(shù)量最高達(dá)到16億,,能夠理解游戲中的物理和3D環(huán)境,,并生成玩家動作及視覺效果,。不過,,目前它僅能以300×180像素的分辨率生成游戲畫面,。
Muse生成的游戲視頻效果保持了一致性,、多樣性和持久性,。這意味著它可以生成長達(dá)兩分鐘的一致游戲序列,提供不同攝像機(jī)移動角度,、角色和游戲工具的多樣性,,并支持開發(fā)者添加新元素并自動融入畫面,。這項(xiàng)工作由微軟研究員游戲智能團(tuán)隊(duì)、可教的AI體驗(yàn)團(tuán)隊(duì)與Xbox Games Studios旗下的Ninja Theory合作完成,。
為了讓更多開發(fā)者體驗(yàn)這項(xiàng)技術(shù),,微軟開源了權(quán)重和樣本數(shù)據(jù),并提供了可視化交互界面WHAM Demonstrator,。開發(fā)者可以在Azure AI Foundry上學(xué)習(xí)和試驗(yàn)這些資源,。Xbox也在考慮利用Muse為用戶構(gòu)建簡短的交互式AI游戲體驗(yàn),即將在Copilot Labs上試用,。
Muse在7Maps數(shù)據(jù)集上進(jìn)行了訓(xùn)練,,每張圖像被編碼為540個Tokens,數(shù)據(jù)量相當(dāng)于七年多的人類游戲時間,。此外,,還有較小規(guī)模的數(shù)據(jù)集用于特定地圖上的訓(xùn)練。通過提示模型使用10個初始幀(1秒)的人類游戲和整個游戲序列的控制器動作,,可以生成多個可能的延續(xù)圖像,。用戶還可以瀏覽生成的序列并進(jìn)行調(diào)整,例如使用游戲控制器指導(dǎo)角色行動,,這展示了Muse如何將迭代作為創(chuàng)作過程的一部分,。
研究人員總結(jié)了27名從事游戲開發(fā)的創(chuàng)意人員的意見,確定了模型需要具備一致性,、多樣性和持久性三大能力,。一致性使得生成的序列隨時間推移并與游戲機(jī)制保持一致;多樣性允許模型產(chǎn)生大量不同的序列,,反映不同的潛在結(jié)果,;持久性則使用戶對游戲視覺效果和控制器動作進(jìn)行修改,并將其同化到生成的游戲序列中,。
Muse通過預(yù)測游戲視覺效果和玩家的控制器動作來準(zhǔn)確捕捉游戲環(huán)境的3D結(jié)構(gòu),、控制器動作的效果以及游戲的時間結(jié)構(gòu)。研究人員最初使用V100集群進(jìn)行訓(xùn)練,,后來擴(kuò)展到H100的大規(guī)模訓(xùn)練,,提高了圖像編碼器的質(zhì)量和模型規(guī)模。
論文還詳細(xì)介紹了Muse在一致性,、多樣性和持久性方面的評估結(jié)果,。通過Fréchet視頻距離(FVD)和Wasserstein距離等指標(biāo),研究人員發(fā)現(xiàn)生成的游戲玩法與真實(shí)情況高度匹配,。此外,,Muse能夠在手動編輯游戲圖像后保留插入的新元素,,顯示出其強(qiáng)大的持久性,。
這項(xiàng)研究不僅展示了生成式AI在游戲領(lǐng)域的潛力,,還為未來的游戲體驗(yàn)開辟了新的可能性。微軟已經(jīng)開源了相關(guān)資源,,加速了開發(fā)者的研究進(jìn)程,,或許不久的將來會有更多基于AI的新穎游戲體驗(yàn)出現(xiàn)。