清華團(tuán)隊(duì)國(guó)產(chǎn)"Sora"火了：16秒高清視頻一鍵生成

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2024-04-27 22:48:06 量子位

國(guó)內(nèi)新發(fā)布的AI視頻生成模型“Vidu”引起了廣泛關(guān)注，這款由生數(shù)科技與清華大學(xué)合作推出的產(chǎn)品，能夠在一鍵操作下生成16秒長(zhǎng),、1080p高清的視頻內(nèi)容。Vidu的特別之處在于其生成的視頻不僅時(shí)長(zhǎng)顯著，而且在畫(huà)面連續(xù)性,、鏡頭運(yùn)用、時(shí)空一致性和物理規(guī)律模擬上接近國(guó)際頂尖水平Sora,，甚至能創(chuàng)造出現(xiàn)實(shí)中不存在的超現(xiàn)實(shí)主義場(chǎng)景,，這些都是當(dāng)前大多數(shù)視頻生成模型難以企及的。

在短短兩個(gè)月內(nèi),，Vidu的開(kāi)發(fā)團(tuán)隊(duì)實(shí)現(xiàn)了這些技術(shù)突破,。相較于同類(lèi)技術(shù)，Vidu的視頻不再是簡(jiǎn)單的動(dòng)態(tài)圖片延展,，而是具備了豐富的鏡頭語(yǔ)言,，如轉(zhuǎn)場(chǎng)、追焦和長(zhǎng)鏡頭效果,，能夠講述連貫的故事,，提升了視頻的敘事性和觀(guān)賞性。它在保持時(shí)間與空間一致性上的表現(xiàn)也頗為出色,，使得視頻中的動(dòng)作和場(chǎng)景變換流暢自然,，減少了以往AI生成視頻中常見(jiàn)的敘事斷裂和邏輯錯(cuò)誤。

Vidu對(duì)真實(shí)物理世界的模擬也是其亮點(diǎn)之一,，能夠準(zhǔn)確展現(xiàn)物體運(yùn)動(dòng)及其相互作用,，如塵土飛揚(yáng)、光影變化等,，這些細(xì)節(jié)極大地增強(qiáng)了視頻的真實(shí)感,。更令人興奮的是，Vidu能夠想象并生成現(xiàn)實(shí)中不存在的場(chǎng)景,，如畫(huà)室中的帆船與海浪,，以及“魚(yú)缸女孩”這類(lèi)超現(xiàn)實(shí)主題，為創(chuàng)意內(nèi)容提供了無(wú)限可能,，拓寬了藝術(shù)表達(dá)的界限,。

此外，Vidu還展現(xiàn)了對(duì)中國(guó)元素的理解與應(yīng)用,，成功生成包含熊貓,、龍、宮殿等特色場(chǎng)景的視頻,，展示了其文化適應(yīng)性和多樣性,。

Vidu快速發(fā)展的“秘籍”在于選擇了正確的技術(shù)路線(xiàn)和堅(jiān)實(shí)的工程化基礎(chǔ)。它基于自研的U-ViT架構(gòu)，該架構(gòu)融合了Transformer與Diffusion模型的優(yōu)勢(shì),，能夠直接連續(xù)地從文本生成視頻,，避免了插幀和拼接帶來(lái)的畫(huà)面僵硬問(wèn)題。同時(shí),，團(tuán)隊(duì)在圖文任務(wù)中積累的經(jīng)驗(yàn)和技術(shù)成果,，如大規(guī)模訓(xùn)練的可擴(kuò)展性和并行化訓(xùn)練策略，也加速了Vidu在視頻生成領(lǐng)域的進(jìn)步,。

生數(shù)科技,，這支擁有清華背景的團(tuán)隊(duì)，以其在多模態(tài)大模型領(lǐng)域的深厚研究基礎(chǔ)和一系列學(xué)術(shù)成就,，支撐起了Vidu的技術(shù)創(chuàng)新,。他們不僅在國(guó)內(nèi)外頂級(jí)會(huì)議上多次發(fā)表論文，提出的多項(xiàng)技術(shù)也被國(guó)際前沿機(jī)構(gòu)采納,，顯示出強(qiáng)勁的研發(fā)實(shí)力和行業(yè)影響力,。自成立以來(lái)，生數(shù)科技憑借其在多模態(tài)大模型賽道的突出表現(xiàn),，獲得了多家知名機(jī)構(gòu)的投資,，成為國(guó)內(nèi)該領(lǐng)域估值領(lǐng)先的創(chuàng)業(yè)團(tuán)隊(duì)。

(責(zé)任編輯：張佳鑫)

關(guān)閉

清華團(tuán)隊(duì)國(guó)產(chǎn)"Sora"火了：16秒高清視頻一鍵生成

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)