農(nóng)歷除夕夜,,全球華人喜迎新春之時,,紐約證券交易所的電子屏上,阿里巴巴美股股價在收盤前從漲幅1%快速拉升至6.7%,。這一行情異動背后,,是一場技術上的奇襲。
1月29日凌晨,,阿里通義千問團隊悄然上線了大模型Qwen2.5-Max,,在多個權威基準測試中展現(xiàn)出與全球頂級模型比肩的性能。這是繼DeepSeek之后,,中國AI陣營在高性能、低成本技術路線上的又一重要突破,。
市場人士分析稱,,此前過度聚焦DeepSeek,卻忽視了包括阿里通義在內(nèi)的中國AI整體性追趕,。行業(yè)媒體《信息平權》表示,,若阿里Qwen-2.5-max的性能超過V3,可以對其RL推理模型給予更大期待,。
當阿里云展現(xiàn)出“強大模型+充足算力+完整云平臺”的組合優(yōu)勢時,,是否印證了類似去年北美云計算服務商的投資邏輯?如果美股因AI整體增值10萬億美元,,中國AI資產(chǎn)的重估時機是否已至,?
Qwen2.5-Max采用超大規(guī)模MoE(混合專家)架構,基于超過20萬億token的預訓練數(shù)據(jù),。在MMLU-Pro,、LiveCodeBench、LiveBench以及Arena-Hard等多個權威評測中,,該模型均展現(xiàn)出與DeepSeek V3,、GPT-4和Claude-3.5-Sonnet比肩甚至領先的性能。阿里團隊表示,,隨著后訓練技術的進步,,下一個版本將有望達到更高水平。
Qwen2.5團隊同步發(fā)布了兩個創(chuàng)新型號:Qwen2.5-7b-instruct-1m和Qwen2.5-14b-instruct-1m,。這些開源模型支持高達100萬token的上下文窗口,,成為業(yè)內(nèi)首個達到此規(guī)模的公開可用模型。這些模型使用稀疏注意力,,處理百萬token輸入的速度比傳統(tǒng)方法快3到7倍,,輸出長度可達8000個token。
在測試中,,14B型號和Qwen2.5-Turbo在查找非常長的文檔中的隱藏數(shù)字時都達到了完美的準確性,。較小的7B型號也表現(xiàn)良好,,只有輕微的錯誤。在RULER,、LV-Eval和LongbenchChat等要求更高的復雜的上下文測試中,,百萬token模型的表現(xiàn)優(yōu)于128K token模型,尤其是在超過64K token的序列中,,14B型號甚至在RULER中得分超過90分——這是Qwen系列的第一次——在多個數(shù)據(jù)集上持續(xù)擊敗gpt - 4o mini,。
如果說DeepSeek V3展現(xiàn)了中國AI的銳度,那么阿里的突破則體現(xiàn)了產(chǎn)業(yè)生態(tài)的深度進化,。Qwen2.5-Max發(fā)布當天,,阿里云百煉平臺同步開放了完整的工具鏈支持,開發(fā)者可以直接在云端調用,。這種“超算集群+開源生態(tài)+云原生”的三位一體架構,,與北美AWS、Azure,、GCP三大云服務商的商業(yè)模式形成鏡像,。
摩根士丹利最新研報指出,低成本高性能模型也將重塑數(shù)據(jù)中心和軟件行業(yè)格局,。對于中國數(shù)據(jù)中心而言,,短期內(nèi),如果大型科技公司采用類似技術路線,,可能減少AI訓練相關需求,。但從長遠來看,低成本模型將推動推理需求增長,,對一線城市數(shù)據(jù)中心形成利好,。對于中國軟件行業(yè),AI模型成本的降低將降低應用程序運行AI功能的門檻,,從供給側改善行業(yè)環(huán)境,。
如果阿里Qwen-2.5-max的性能確實展現(xiàn)出預期水平,加之其低成本優(yōu)勢與完整云生態(tài),,或引發(fā)中國AI資產(chǎn)的新一輪重估,。
阿里云通義千問超大規(guī)模的MoE模型Qwen2.5-Max于1月29日凌晨正式上線。該模型是阿里云通義團隊對MoE模型的最新成果,,預訓練數(shù)據(jù)超過20萬億tokens
2025-01-30 13:16:20阿里新模型聲稱超越DeepSeek11月14日,光刻機巨頭阿斯麥股價在歐洲市場大幅上漲,,漲幅超過5.3%,,達到661.10歐元/股,。美股盤前,阿斯麥股價也上漲超過3%
2024-11-15 17:38:01光刻機巨頭拋出重磅信號短短一個月內(nèi),中國AI初創(chuàng)公司深度求索(DeepSeek)發(fā)布了兩款大模型:DeepSeek-V3和DeepSeek-R1
2025-01-26 15:51:02DeepSeek新模型火到海外