2月16日凌晨,OpenAI再次扔出一枚深水炸彈,發(fā)布了首個(gè)文生視頻模型Sora。據(jù)介紹,Sora可以直接輸出長(zhǎng)達(dá)60秒的視頻,,并且包含高度細(xì)致的背景、復(fù)雜的多角度鏡頭,以及富有情感的多個(gè)角色,。
目前官網(wǎng)上已經(jīng)更新了48個(gè)視頻demo,在這些demo中,,Sora不僅能準(zhǔn)確呈現(xiàn)細(xì)節(jié),,還能理解物體在物理世界中的存在,,并生成具有豐富情感的角色。該模型還可以根據(jù)提示,、靜止圖像甚至填補(bǔ)現(xiàn)有視頻中的缺失幀來(lái)生成視頻,。
例如一個(gè)Prompt(大語(yǔ)言模型中的提示詞)的描述是:在東京街頭,一位時(shí)髦的女士穿梭在充滿溫暖霓虹燈光和動(dòng)感城市標(biāo)志的街道上,。
在Sora生成的視頻里,,女士身著黑色皮衣、紅色裙子在霓虹街頭行走,,不僅主體連貫穩(wěn)定,,還有多鏡頭,包括從大街景慢慢切入到對(duì)女士的臉部表情的特寫(xiě),,以及潮濕的街道地面反射霓虹燈的光影效果,。
另一個(gè)Prompt則是,一只貓?jiān)噲D叫醒熟睡的主人,,要求吃早餐,,主人試圖忽略這只貓,但貓嘗試了新招,,最終主人從枕頭下拿出藏起來(lái)的零食,,讓貓自己再多待一會(huì)兒。在這個(gè)AI生成視頻里,,貓甚至都學(xué)會(huì)了踩奶,,對(duì)主人鼻頭的觸碰甚至都是輕輕的,接近物理世界里貓的真實(shí)反應(yīng),。
OpenAI表示,,他們正在教AI理解和模擬運(yùn)動(dòng)中的物理世界,目標(biāo)是訓(xùn)練模型來(lái)幫助人們解決需要現(xiàn)實(shí)世界交互的問(wèn)題,。
隨后OpenAI解釋了Sora的工作原理,,Sora是一個(gè)擴(kuò)散模型,它從類似于靜態(tài)噪聲的視頻開(kāi)始,,通過(guò)多個(gè)步驟逐漸去除噪聲,,視頻也從最初的隨機(jī)像素轉(zhuǎn)化為清晰的圖像場(chǎng)景。Sora使用了Transformer架構(gòu),,有極強(qiáng)的擴(kuò)展性,。
視頻和圖像是被稱為“補(bǔ)丁”的較小數(shù)據(jù)單位集合,每個(gè)“補(bǔ)丁”都類似于GPT中的一個(gè)標(biāo)記(Token),,通過(guò)統(tǒng)一的數(shù)據(jù)表達(dá)方式,,可以在更廣泛的視覺(jué)數(shù)據(jù)上訓(xùn)練和擴(kuò)散變化,包括不同的時(shí)間,、分辨率和縱橫比,。
在周二凌晨1點(diǎn)的春季發(fā)布會(huì)上,,OpenAI繼“文生視頻模型”Sora后再次為市場(chǎng)帶來(lái)新驚喜
2024-05-14 09:07:05OpenAI新模型:圖文音頻全搞定