國內(nèi)新發(fā)布的AI視頻生成模型“Vidu”引起了廣泛關(guān)注,,這款由生數(shù)科技與清華大學(xué)合作推出的產(chǎn)品,,能夠在一鍵操作下生成16秒長、1080p高清的視頻內(nèi)容,。Vidu的特別之處在于其生成的視頻不僅時(shí)長顯著,而且在畫面連續(xù)性,、鏡頭運(yùn)用,、時(shí)空一致性和物理規(guī)律模擬上接近國際頂尖水平Sora,甚至能創(chuàng)造出現(xiàn)實(shí)中不存在的超現(xiàn)實(shí)主義場景,,這些都是當(dāng)前大多數(shù)視頻生成模型難以企及的,。
在短短兩個(gè)月內(nèi),Vidu的開發(fā)團(tuán)隊(duì)實(shí)現(xiàn)了這些技術(shù)突破,。相較于同類技術(shù),,Vidu的視頻不再是簡單的動態(tài)圖片延展,而是具備了豐富的鏡頭語言,,如轉(zhuǎn)場,、追焦和長鏡頭效果,能夠講述連貫的故事,,提升了視頻的敘事性和觀賞性,。它在保持時(shí)間與空間一致性上的表現(xiàn)也頗為出色,使得視頻中的動作和場景變換流暢自然,,減少了以往AI生成視頻中常見的敘事斷裂和邏輯錯(cuò)誤,。
Vidu對真實(shí)物理世界的模擬也是其亮點(diǎn)之一,能夠準(zhǔn)確展現(xiàn)物體運(yùn)動及其相互作用,,如塵土飛揚(yáng),、光影變化等,這些細(xì)節(jié)極大地增強(qiáng)了視頻的真實(shí)感,。更令人興奮的是,,Vidu能夠想象并生成現(xiàn)實(shí)中不存在的場景,如畫室中的帆船與海浪,,以及“魚缸女孩”這類超現(xiàn)實(shí)主題,,為創(chuàng)意內(nèi)容提供了無限可能,拓寬了藝術(shù)表達(dá)的界限,。
此外,,Vidu還展現(xiàn)了對中國元素的理解與應(yīng)用,成功生成包含熊貓、龍,、宮殿等特色場景的視頻,,展示了其文化適應(yīng)性和多樣性。
Vidu快速發(fā)展的“秘籍”在于選擇了正確的技術(shù)路線和堅(jiān)實(shí)的工程化基礎(chǔ),。它基于自研的U-ViT架構(gòu),,該架構(gòu)融合了Transformer與Diffusion模型的優(yōu)勢,能夠直接連續(xù)地從文本生成視頻,,避免了插幀和拼接帶來的畫面僵硬問題,。同時(shí),團(tuán)隊(duì)在圖文任務(wù)中積累的經(jīng)驗(yàn)和技術(shù)成果,,如大規(guī)模訓(xùn)練的可擴(kuò)展性和并行化訓(xùn)練策略,也加速了Vidu在視頻生成領(lǐng)域的進(jìn)步,。
生數(shù)科技,,這支擁有清華背景的團(tuán)隊(duì),以其在多模態(tài)大模型領(lǐng)域的深厚研究基礎(chǔ)和一系列學(xué)術(shù)成就,,支撐起了Vidu的技術(shù)創(chuàng)新,。他們不僅在國內(nèi)外頂級會議上多次發(fā)表論文,提出的多項(xiàng)技術(shù)也被國際前沿機(jī)構(gòu)采納,,顯示出強(qiáng)勁的研發(fā)實(shí)力和行業(yè)影響力,。自成立以來,生數(shù)科技憑借其在多模態(tài)大模型賽道的突出表現(xiàn),,獲得了多家知名機(jī)構(gòu)的投資,,成為國內(nèi)該領(lǐng)域估值領(lǐng)先的創(chuàng)業(yè)團(tuán)隊(duì)。
近期,,人工智能領(lǐng)域內(nèi)的一起學(xué)術(shù)誠信事件引起了全球科技行業(yè)的密切關(guān)注,。
2024-06-04 15:54:36斯坦福AI團(tuán)隊(duì)抄襲國產(chǎn)大模型?連識別“清華簡”都抄了!清華系團(tuán)隊(duì)回應(yīng)