原標(biāo)題:生數(shù)科技發(fā)布視頻大模型「Vidu」引關(guān)注清華團隊國產(chǎn)Sora火了
【環(huán)球網(wǎng)科技綜合報道】近日,生數(shù)科技聯(lián)合清華大學(xué)發(fā)布了視頻大模型「Vidu」,,引發(fā)了廣泛關(guān)注,。
這一模型支持一鍵生成長達16秒、分辨率達1080p的高清視頻內(nèi)容,,畫面效果接近Sora,,并且在多方面表現(xiàn)出色,包括鏡頭語言,、時空一致性,、物理模擬等方面,讓人驚嘆,。
背后的團隊僅用了兩個月的時間就取得了這一突破。
與Sora的對標(biāo)
在視頻生成方面,,「Vidu」與Sora進行了全面對標(biāo),。
從視頻長度、時空一致性,、鏡頭語言,、物理模擬等方面看,「Vidu」已經(jīng)逼近了Sora的水平,。
生成的視頻長度達到了16秒,,畫面流暢,,細(xì)節(jié)豐富,邏輯連貫,,呈現(xiàn)出高度接近真實世界的效果,。
鏡頭語言注入
在視頻制作中,鏡頭語言是非常重要的概念,,能夠幫助表達故事情節(jié),、揭示角色心理、營造氛圍等,。
現(xiàn)有AI生成的視頻在鏡頭語言方面往往表現(xiàn)單調(diào),,而「Vidu」則通過生成轉(zhuǎn)場、追焦,、長鏡頭等效果,,成功注入了更加豐富的鏡頭語言,提升了視頻的整體敘事感,。
時空一致性保持
視頻畫面的連貫和流暢性取決于人物和場景的時空一致性,。
「Vidu」在一定程度上克服了這一問題,保持了視頻的連貫性和流暢性,,展現(xiàn)出良好的時間,、空間一致性,讓觀眾體驗更加真實,。
模擬真實物理世界
「Vidu」能夠模擬真實物理世界的運動,,包括物體的移動和相互作用。
與Sora相比,,「Vidu」在灰塵,、光影等細(xì)節(jié)方面表現(xiàn)出色,接近真實世界的體驗,,展現(xiàn)出優(yōu)秀的技術(shù)能力,。
豐富的想象力與中國元素
「Vidu」不僅能生成現(xiàn)實世界中的畫面,還能虛構(gòu)出真實世界不存在的超現(xiàn)實主義畫面,。
此外,,「Vidu」還能注入特有的中國元素,如熊貓,、龍等,,為視頻內(nèi)容增添了新意。
團隊背景與技術(shù)路線
生數(shù)科技的團隊來自清華大學(xué)人工智能研究院,,致力于圖像,、3D、視頻等多模態(tài)大模型領(lǐng)域的研究,。
他們基于自研的U-ViT架構(gòu)開發(fā)了「Vidu」,,該架構(gòu)融合了Transformer和Diffusion模型,,展現(xiàn)出卓越的生成能力。
團隊在多模態(tài)領(lǐng)域發(fā)表了多篇頂會論文,,積累了豐富的研究經(jīng)驗,。
生數(shù)科技通過「Vidu」展現(xiàn)了其在視頻生成領(lǐng)域的創(chuàng)新能力和技術(shù)實力,為未來視頻內(nèi)容創(chuàng)作帶來了更多可能性,。
其快速突破和優(yōu)秀表現(xiàn)也讓人期待其未來的發(fā)展和應(yīng)用,。
近期,,人工智能領(lǐng)域內(nèi)的一起學(xué)術(shù)誠信事件引起了全球科技行業(yè)的密切關(guān)注,。
2024-06-04 15:54:36斯坦福AI團隊抄襲國產(chǎn)大模型?連識別“清華簡”都抄了,!清華系團隊回應(yīng)4月27日,中關(guān)村論壇未來人工智能先鋒論壇舉行期間,,生數(shù)科技攜手清華大學(xué)宣布了一個重要成果:中國首個長時長,、高一致性、高動態(tài)性視頻大模型Vidu正式面世
2024-04-28 18:58:48新模型Vidu直逼Sora