國內(nèi)新發(fā)布的AI視頻生成模型“Vidu”引起了廣泛關注,,這款由生數(shù)科技與清華大學合作推出的產(chǎn)品,,能夠在一鍵操作下生成16秒長,、1080p高清的視頻內(nèi)容。Vidu的特別之處在于其生成的視頻不僅時長顯著,,而且在畫面連續(xù)性,、鏡頭運用、時空一致性和物理規(guī)律模擬上接近國際頂尖水平Sora,,甚至能創(chuàng)造出現(xiàn)實中不存在的超現(xiàn)實主義場景,,這些都是當前大多數(shù)視頻生成模型難以企及的。
在短短兩個月內(nèi),,Vidu的開發(fā)團隊實現(xiàn)了這些技術突破,。相較于同類技術,Vidu的視頻不再是簡單的動態(tài)圖片延展,,而是具備了豐富的鏡頭語言,,如轉(zhuǎn)場、追焦和長鏡頭效果,,能夠講述連貫的故事,,提升了視頻的敘事性和觀賞性。它在保持時間與空間一致性上的表現(xiàn)也頗為出色,,使得視頻中的動作和場景變換流暢自然,,減少了以往AI生成視頻中常見的敘事斷裂和邏輯錯誤。
Vidu對真實物理世界的模擬也是其亮點之一,,能夠準確展現(xiàn)物體運動及其相互作用,,如塵土飛揚、光影變化等,,這些細節(jié)極大地增強了視頻的真實感,。更令人興奮的是,Vidu能夠想象并生成現(xiàn)實中不存在的場景,,如畫室中的帆船與海浪,,以及“魚缸女孩”這類超現(xiàn)實主題,為創(chuàng)意內(nèi)容提供了無限可能,,拓寬了藝術表達的界限,。
此外,Vidu還展現(xiàn)了對中國元素的理解與應用,,成功生成包含熊貓,、龍、宮殿等特色場景的視頻,展示了其文化適應性和多樣性,。
Vidu快速發(fā)展的“秘籍”在于選擇了正確的技術路線和堅實的工程化基礎,。它基于自研的U-ViT架構(gòu),該架構(gòu)融合了Transformer與Diffusion模型的優(yōu)勢,,能夠直接連續(xù)地從文本生成視頻,,避免了插幀和拼接帶來的畫面僵硬問題。同時,,團隊在圖文任務中積累的經(jīng)驗和技術成果,,如大規(guī)模訓練的可擴展性和并行化訓練策略,也加速了Vidu在視頻生成領域的進步,。
生數(shù)科技,,這支擁有清華背景的團隊,以其在多模態(tài)大模型領域的深厚研究基礎和一系列學術成就,,支撐起了Vidu的技術創(chuàng)新,。他們不僅在國內(nèi)外頂級會議上多次發(fā)表論文,提出的多項技術也被國際前沿機構(gòu)采納,,顯示出強勁的研發(fā)實力和行業(yè)影響力,。自成立以來,生數(shù)科技憑借其在多模態(tài)大模型賽道的突出表現(xiàn),,獲得了多家知名機構(gòu)的投資,,成為國內(nèi)該領域估值領先的創(chuàng)業(yè)團隊。
近期,,人工智能領域內(nèi)的一起學術誠信事件引起了全球科技行業(yè)的密切關注。
2024-06-04 15:54:36斯坦福AI團隊抄襲國產(chǎn)大模型,?連識別“清華簡”都抄了,!清華系團隊回應4月27日,中關村論壇未來人工智能先鋒論壇舉行期間,,生數(shù)科技攜手清華大學宣布了一個重要成果:中國首個長時長,、高一致性、高動態(tài)性視頻大模型Vidu正式面世
2024-04-28 18:58:48新模型Vidu直逼Sora