微軟的研究團(tuán)隊最近在國際頂級學(xué)術(shù)期刊Nature上發(fā)表了一項新成果,,名為Muse的視頻游戲生成模型。該模型基于近七年的游戲數(shù)據(jù)進(jìn)行訓(xùn)練,,參數(shù)量最高達(dá)到16億,,能夠理解游戲中的物理和3D環(huán)境,并生成玩家動作及視覺效果,。不過,,目前它僅能以300×180像素的分辨率生成游戲畫面。
Muse生成的游戲視頻效果保持了一致性,、多樣性和持久性,。這意味著它可以生成長達(dá)兩分鐘的一致游戲序列,提供不同攝像機(jī)移動角度,、角色和游戲工具的多樣性,,并支持開發(fā)者添加新元素并自動融入畫面。這項工作由微軟研究員游戲智能團(tuán)隊,、可教的AI體驗團(tuán)隊與Xbox Games Studios旗下的Ninja Theory合作完成,。
為了讓更多開發(fā)者體驗這項技術(shù),微軟開源了權(quán)重和樣本數(shù)據(jù),,并提供了可視化交互界面WHAM Demonstrator,。開發(fā)者可以在Azure AI Foundry上學(xué)習(xí)和試驗這些資源。Xbox也在考慮利用Muse為用戶構(gòu)建簡短的交互式AI游戲體驗,,即將在Copilot Labs上試用,。
Muse在7Maps數(shù)據(jù)集上進(jìn)行了訓(xùn)練,每張圖像被編碼為540個Tokens,,數(shù)據(jù)量相當(dāng)于七年多的人類游戲時間,。此外,還有較小規(guī)模的數(shù)據(jù)集用于特定地圖上的訓(xùn)練,。通過提示模型使用10個初始幀(1秒)的人類游戲和整個游戲序列的控制器動作,,可以生成多個可能的延續(xù)圖像。用戶還可以瀏覽生成的序列并進(jìn)行調(diào)整,例如使用游戲控制器指導(dǎo)角色行動,,這展示了Muse如何將迭代作為創(chuàng)作過程的一部分,。
研究人員總結(jié)了27名從事游戲開發(fā)的創(chuàng)意人員的意見,確定了模型需要具備一致性,、多樣性和持久性三大能力,。一致性使得生成的序列隨時間推移并與游戲機(jī)制保持一致;多樣性允許模型產(chǎn)生大量不同的序列,,反映不同的潛在結(jié)果,;持久性則使用戶對游戲視覺效果和控制器動作進(jìn)行修改,并將其同化到生成的游戲序列中,。