Qwen2.5團(tuán)隊(duì)同步發(fā)布了兩個(gè)創(chuàng)新型號(hào):Qwen2.5-7b-instruct-1m和Qwen2.5-14b-instruct-1m,。這些開(kāi)源模型支持高達(dá)100萬(wàn)token的上下文窗口,成為業(yè)內(nèi)首個(gè)達(dá)到此規(guī)模的公開(kāi)可用模型,。這些模型使用稀疏注意力,處理百萬(wàn)token輸入的速度比傳統(tǒng)方法快3到7倍,,輸出長(zhǎng)度可達(dá)8000個(gè)token,。在測(cè)試中,14B型號(hào)和Qwen2.5-Turbo在查找非常長(zhǎng)的文檔中的隱藏?cái)?shù)字時(shí)都達(dá)到了完美的準(zhǔn)確性,,較小的7B型號(hào)也表現(xiàn)良好,,只有輕微的錯(cuò)誤。在RULER,、LV-Eval和LongbenchChat等要求更高的復(fù)雜的上下文測(cè)試中,,百萬(wàn)token模型的表現(xiàn)優(yōu)于128K token模型,尤其是在超過(guò)64K token的序列中,,14B型號(hào)在RULER中得分超過(guò)90分,,持續(xù)擊敗gpt-4o mini。
如果說(shuō)DeepSeek V3的橫空出世展現(xiàn)了中國(guó)AI的銳度,,那么本次阿里的突破則體現(xiàn)了產(chǎn)業(yè)生態(tài)的深度進(jìn)化,。在Qwen2.5-Max發(fā)布當(dāng)天,阿里云百煉平臺(tái)同步開(kāi)放了完整的工具鏈支持,,開(kāi)發(fā)者可以直接在云端調(diào)用,。這種“超算集群+開(kāi)源生態(tài)+云原生”的三位一體架構(gòu),,與北美AWS、Azure,、GCP三大云服務(wù)商的商業(yè)模式形成鏡像,。根據(jù)摩根士丹利最新研報(bào),低成本高性能模型也將重塑數(shù)據(jù)中心和軟件行業(yè)格局,。對(duì)于中國(guó)數(shù)據(jù)中心而言,,短期內(nèi)大型科技公司采用類似技術(shù)路線可能減少AI訓(xùn)練相關(guān)需求,但從長(zhǎng)遠(yuǎn)來(lái)看,,低成本模型將推動(dòng)推理需求增長(zhǎng),,對(duì)一線城市數(shù)據(jù)中心形成利好。對(duì)于中國(guó)軟件行業(yè),,AI模型成本的降低將降低應(yīng)用程序運(yùn)行AI功能的門(mén)檻,,從供給側(cè)改善行業(yè)環(huán)境。如果阿里Qwen-2.5-max的性能確實(shí)展現(xiàn)出預(yù)期水平,,加之其低成本優(yōu)勢(shì)與完整云生態(tài),,有理由期待它將引發(fā)中國(guó)AI資產(chǎn)新一輪重估。