國(guó)內(nèi)新發(fā)布的AI視頻生成模型“Vidu”引起了廣泛關(guān)注,這款由生數(shù)科技與清華大學(xué)合作推出的產(chǎn)品,能夠在一鍵操作下生成16秒長(zhǎng),、1080p高清的視頻內(nèi)容。Vidu的特別之處在于其生成的視頻不僅時(shí)長(zhǎng)顯著,而且在畫(huà)面連續(xù)性,、鏡頭運(yùn)用、時(shí)空一致性和物理規(guī)律模擬上接近國(guó)際頂尖水平Sora,,甚至能創(chuàng)造出現(xiàn)實(shí)中不存在的超現(xiàn)實(shí)主義場(chǎng)景,,這些都是當(dāng)前大多數(shù)視頻生成模型難以企及的。
在短短兩個(gè)月內(nèi),,Vidu的開(kāi)發(fā)團(tuán)隊(duì)實(shí)現(xiàn)了這些技術(shù)突破,。相較于同類(lèi)技術(shù),Vidu的視頻不再是簡(jiǎn)單的動(dòng)態(tài)圖片延展,,而是具備了豐富的鏡頭語(yǔ)言,,如轉(zhuǎn)場(chǎng)、追焦和長(zhǎng)鏡頭效果,,能夠講述連貫的故事,,提升了視頻的敘事性和觀(guān)賞性。它在保持時(shí)間與空間一致性上的表現(xiàn)也頗為出色,,使得視頻中的動(dòng)作和場(chǎng)景變換流暢自然,,減少了以往AI生成視頻中常見(jiàn)的敘事斷裂和邏輯錯(cuò)誤。
Vidu對(duì)真實(shí)物理世界的模擬也是其亮點(diǎn)之一,,能夠準(zhǔn)確展現(xiàn)物體運(yùn)動(dòng)及其相互作用,,如塵土飛揚(yáng)、光影變化等,,這些細(xì)節(jié)極大地增強(qiáng)了視頻的真實(shí)感,。更令人興奮的是,Vidu能夠想象并生成現(xiàn)實(shí)中不存在的場(chǎng)景,,如畫(huà)室中的帆船與海浪,,以及“魚(yú)缸女孩”這類(lèi)超現(xiàn)實(shí)主題,為創(chuàng)意內(nèi)容提供了無(wú)限可能,,拓寬了藝術(shù)表達(dá)的界限,。
此外,Vidu還展現(xiàn)了對(duì)中國(guó)元素的理解與應(yīng)用,,成功生成包含熊貓,、龍、宮殿等特色場(chǎng)景的視頻,,展示了其文化適應(yīng)性和多樣性,。
Vidu快速發(fā)展的“秘籍”在于選擇了正確的技術(shù)路線(xiàn)和堅(jiān)實(shí)的工程化基礎(chǔ)。它基于自研的U-ViT架構(gòu),該架構(gòu)融合了Transformer與Diffusion模型的優(yōu)勢(shì),,能夠直接連續(xù)地從文本生成視頻,,避免了插幀和拼接帶來(lái)的畫(huà)面僵硬問(wèn)題。同時(shí),,團(tuán)隊(duì)在圖文任務(wù)中積累的經(jīng)驗(yàn)和技術(shù)成果,,如大規(guī)模訓(xùn)練的可擴(kuò)展性和并行化訓(xùn)練策略,也加速了Vidu在視頻生成領(lǐng)域的進(jìn)步,。
生數(shù)科技,,這支擁有清華背景的團(tuán)隊(duì),以其在多模態(tài)大模型領(lǐng)域的深厚研究基礎(chǔ)和一系列學(xué)術(shù)成就,,支撐起了Vidu的技術(shù)創(chuàng)新,。他們不僅在國(guó)內(nèi)外頂級(jí)會(huì)議上多次發(fā)表論文,提出的多項(xiàng)技術(shù)也被國(guó)際前沿機(jī)構(gòu)采納,,顯示出強(qiáng)勁的研發(fā)實(shí)力和行業(yè)影響力,。自成立以來(lái),生數(shù)科技憑借其在多模態(tài)大模型賽道的突出表現(xiàn),,獲得了多家知名機(jī)構(gòu)的投資,,成為國(guó)內(nèi)該領(lǐng)域估值領(lǐng)先的創(chuàng)業(yè)團(tuán)隊(duì)。
近期,,人工智能領(lǐng)域內(nèi)的一起學(xué)術(shù)誠(chéng)信事件引起了全球科技行業(yè)的密切關(guān)注。
2024-06-04 15:54:36斯坦福AI團(tuán)隊(duì)抄襲國(guó)產(chǎn)大模型,?連識(shí)別“清華簡(jiǎn)”都抄了,!清華系團(tuán)隊(duì)回應(yīng)