北京時間2月25日晚間,,阿里巴巴宣布全面開源旗下視頻生成模型萬相2.1,,這一消息迅速點燃了整個AI領(lǐng)域,預(yù)示著AI驅(qū)動的視頻創(chuàng)作即將進入一個全新時代,。
在當前AI產(chǎn)業(yè)競爭激烈的背景下,,阿里巴巴的這一舉動格外引人注目,。本周內(nèi),美國Anthropic公司發(fā)布了混合推理模型Claude 3.7 Sonnet,,DeepSeek持續(xù)開源了5個代碼庫,,xAI也在忙于推出“最強大模型”并進行應(yīng)用優(yōu)化,亞馬遜則計劃為語音助手Alexa帶來“AI升級”,,甚至有傳言稱OpenAI可能推出GPT-4.5,。阿里巴巴選擇此時開源萬相2.1,無疑在這場競爭中投下了一枚重磅炸彈,。
此次開源的萬相2.1模型采用Apache 2.0協(xié)議,,將14B和1.3B兩個參數(shù)規(guī)格的全部推理代碼和權(quán)重開放給全球開發(fā)者,,支持文生視頻和圖生視頻任務(wù),可在Github,、HuggingFace和魔搭社區(qū)下載體驗,。這標志著視頻生成領(lǐng)域?qū)⒂瓉碇卮蟀l(fā)展。
萬相2.1在VBench基準測試中以86.22%的總分力壓美圖奇想,、OpenAI Sora,、Adobe/麻省理工的CausVid、蘋果STIV等國內(nèi)外競品,,穩(wěn)居全球第一,。該模型能夠精準展現(xiàn)復(fù)雜穩(wěn)定的人物肢體動作,如旋轉(zhuǎn),、跳躍、轉(zhuǎn)身,、翻滾等,,并能逼真還原碰撞、反彈,、切割,、擠壓等物理場景,大幅提升了AI生成視頻的真實性,。此外,,萬相2.1還具備獨特的文字生成能力,可以直接通過提示詞在視頻中生成中文字及特殊藝術(shù)效果,。
14B版本適用于專業(yè)創(chuàng)作者,,滿足高質(zhì)量、高要求的創(chuàng)作需求,;而1.3B參數(shù)量版本則更為親民,,僅需家用顯卡(如英偉達4090)單卡8.2G顯存即可生成480P高質(zhì)量視頻,性能堪比某些5B參數(shù)量的閉源大模型,,普通用戶也能輕松上手,。
萬相2.1的應(yīng)用場景廣泛。游戲開發(fā)者可以利用它生成動畫和特效,,提升玩家體驗,;廣告主能制作更具吸引力的廣告視頻;教師可以制作生動的教學(xué)視頻,,使知識傳遞更形象,;短視頻創(chuàng)作者則能高效生成高質(zhì)量內(nèi)容,在競爭中脫穎而出,。
阿里巴巴萬相2.1的開源為整個視頻生成模型賽道注入了新的活力,,讓這個領(lǐng)域更加生機勃勃,。對于OpenAI、谷歌等競爭對手來說,,這意味著巨大的挑戰(zhàn),,尤其是在AI視頻定價方面。而對于消費者和內(nèi)容產(chǎn)業(yè)從業(yè)者,,這將顯著降低創(chuàng)作視頻的成本和門檻,,人人都有機會成為視頻創(chuàng)作者。隨著萬相2.1在中文AI應(yīng)用市場掀起新玩法升級的浪潮,,整個AI視頻創(chuàng)作領(lǐng)域?qū)⒂瓉砬八从械淖兏铩?/p>