農(nóng)歷除夕夜,,在全球華人喜迎新春之時(shí),,紐約證券交易所的電子屏上,,阿里巴巴股價(jià)在收盤前從漲幅1%快速拉升至6.7%,。這一行情異動(dòng)背后是一場技術(shù)奇襲,。
1月29日凌晨,阿里通義千問團(tuán)隊(duì)悄然上線的大模型Qwen2.5-Max在多個(gè)權(quán)威基準(zhǔn)測試中展現(xiàn)出與全球頂級(jí)模型比肩的性能,。這是繼DeepSeek之后,,中國AI陣營在高性能、低成本技術(shù)路線上的又一重要突破,。市場人士分析稱,,此前過度聚焦DeepSeek,忽視了包括阿里通義在內(nèi)的中國AI整體性追趕,。行業(yè)媒體認(rèn)為,,若阿里Qwen-2.5-max的確性能超過V3,可以對(duì)其RL推理模型給予更大期待,。
當(dāng)阿里云展現(xiàn)出“強(qiáng)大模型+充足算力+完整云平臺(tái)”的組合優(yōu)勢時(shí),,這是否印證了類似去年北美云計(jì)算服務(wù)商的投資邏輯?如果美股因AI整體增值10萬億美元,,中國AI資產(chǎn)的重估時(shí)機(jī)是否已至,?
Qwen2.5-Max采用超大規(guī)模MoE架構(gòu),基于超過20萬億token的預(yù)訓(xùn)練數(shù)據(jù),。在MMLU-Pro,、LiveCodeBench、LiveBench和Arena-Hard等多個(gè)權(quán)威評(píng)測中,,該模型均展現(xiàn)出與DeepSeek V3,、GPT-4和Claude-3.5-Sonnet比肩甚至領(lǐng)先的性能。阿里團(tuán)隊(duì)表示,,隨著后訓(xùn)練技術(shù)的不斷進(jìn)步,,下一個(gè)版本將有望達(dá)到更高水平。
Qwen2.5團(tuán)隊(duì)同步發(fā)布了兩個(gè)創(chuàng)新型號(hào):Qwen2.5-7b-instruct-1m和Qwen2.5-14b-instruct-1m,。這些開源模型支持高達(dá)100萬token的上下文窗口,,成為業(yè)內(nèi)首個(gè)達(dá)到此規(guī)模的公開可用模型。這些模型使用稀疏注意力,,處理百萬token輸入的速度比傳統(tǒng)方法快3到7倍,,輸出長度可達(dá)8000個(gè)token。在測試中,,14B型號(hào)和Qwen2.5-Turbo在查找非常長的文檔中的隱藏?cái)?shù)字時(shí)都達(dá)到了完美的準(zhǔn)確性,,較小的7B型號(hào)也表現(xiàn)良好,只有輕微的錯(cuò)誤,。在RULER,、LV-Eval和LongbenchChat等要求更高的復(fù)雜的上下文測試中,,百萬token模型的表現(xiàn)優(yōu)于128K token模型,尤其是在超過64K token的序列中,,14B型號(hào)在RULER中得分超過90分,,持續(xù)擊敗gpt-4o mini。