4月27日,,中關村論壇未來人工智能先鋒論壇舉行期間,生數(shù)科技攜手清華大學宣布了一個重要成果:中國首個長時長,、高一致性、高動態(tài)性視頻大模型Vidu正式面世,。該模型依托團隊獨創(chuàng)的U-ViT架構(gòu),,結(jié)合Diffusion與Transformer技術,能夠輕松生成16秒長度,、1080P高清的視頻內(nèi)容,,操作簡便。
Vidu模型不僅在模擬現(xiàn)實世界的精準度上有所建樹,,還展現(xiàn)了強大的創(chuàng)意生成能力,,比如創(chuàng)造虛擬場景和處理多鏡頭切換,同時確保視頻的時空連貫性,,達到國際先進水平,,并持續(xù)優(yōu)化升級。它與國際知名的Sora模型相比,,在視頻生成時長及質(zhì)量上均有顯著提升,,特別是在細節(jié)還原、虛構(gòu)場景構(gòu)造,、動態(tài)鏡頭運用及對中國文化元素的融入上,表現(xiàn)出色,。Vidu通過“一鏡到底”的技術手段,,實現(xiàn)視頻內(nèi)容的無縫生成,凸顯了其算法的高效與連貫性,。
技術背后,,是團隊在貝葉斯機器學習和多模態(tài)大模型領域的深厚積累。他們提出的U-ViT架構(gòu),,作為全球首個將Diffusion與Transformer融合的創(chuàng)新設計,,早于同類技術,展示了團隊的前瞻性和自主研發(fā)實力,。今年3月,,團隊進一步開源了基于U-ViT的多模態(tài)擴散大模型UniDiffuser,完成了融合架構(gòu)大規(guī)模應用的可行性驗證,,模型參數(shù)接近10億,,實現(xiàn)了圖文模態(tài)間的自由轉(zhuǎn)換。
基于U-ViT的深入探索和實踐,,生數(shù)科技僅用兩個月便在長視頻處理技術上取得突破,,推出了Vidu。這一模型不僅提升了視頻生成的連貫性和動態(tài)范圍,還預示著向更廣泛模態(tài)應用的邁進,,展現(xiàn)出通用視覺模型的潛力,。
Vidu的發(fā)布,不僅是對U-ViT架構(gòu)應用能力的有力證明,,也是生數(shù)科技在多模態(tài)大模型領域創(chuàng)新能力的展現(xiàn),。公司強調(diào),大模型的發(fā)展離不開技術和產(chǎn)業(yè)的緊密結(jié)合,,為此,,同步啟動了“Vidu大模型合作伙伴計劃”,旨在匯聚產(chǎn)業(yè)鏈伙伴,,共同推動大模型技術的應用生態(tài)建設,。
2月16日凌晨,,OpenAI再次扔出一枚深水炸彈,發(fā)布了首個文生視頻模型Sora,。
2024-02-16 10:58:51OpenAI發(fā)布首個文生視頻模型Sora原標題:AI生成的《西游記》短片震驚網(wǎng)友Sora到底懂不懂物理世界?一年前,,AI模型ChatGPT的問世引發(fā)了社會各界廣泛討論,,如今AI技術已經(jīng)帶來翻天覆地的變化。
2024-02-20 09:48:16Sora到底懂不懂物理世界,?在過去一周里,,Sora成為了全球關注的熱點,其熱議程度超越了ChatGPT,,盡管它還未向公眾全面開放,。
2024-06-04 15:49:24AI已經(jīng)能模擬真實世界了嗎