阿里巴巴于4月29日凌晨開(kāi)源了新一代通義千問(wèn)模型Qwen3,,簡(jiǎn)稱(chēng)千問(wèn)3,。該模型參數(shù)量?jī)H為DeepSeek-R1的三分之一,成本顯著降低,,性能卻全面超越R1,、OpenAI-o1等全球頂尖模型,,成為目前最強(qiáng)的開(kāi)源模型之一。千問(wèn)3是國(guó)內(nèi)首個(gè)“混合推理模型”,,能夠?qū)⒖焖俸蜕疃人伎技傻酵荒P椭?,?duì)簡(jiǎn)單需求可以迅速給出答案,而面對(duì)復(fù)雜問(wèn)題時(shí)則能進(jìn)行多步驟深入分析,,從而大大節(jié)省了算力消耗,。
千問(wèn)3采用了混合專(zhuān)家(MoE)架構(gòu),總參數(shù)量為235B,,激活僅需22B,。其預(yù)訓(xùn)練數(shù)據(jù)量達(dá)到36T,并在后訓(xùn)練階段經(jīng)過(guò)多輪強(qiáng)化學(xué)習(xí),實(shí)現(xiàn)了非思考模式與思考模式之間的無(wú)縫整合,。千問(wèn)3在多個(gè)方面表現(xiàn)出色,,包括推理能力、指令遵循,、工具調(diào)用以及多語(yǔ)言支持等,,均達(dá)到了國(guó)產(chǎn)及全球開(kāi)源模型的新高度。例如,,在AIME25奧數(shù)水平測(cè)試中,,千問(wèn)3獲得了81.5分的成績(jī),刷新了開(kāi)源記錄,;在LiveCodeBench代碼能力評(píng)測(cè)中,得分超過(guò)70分,,甚至超過(guò)了Grok3的表現(xiàn),;而在ArenaHard的人類(lèi)偏好對(duì)齊評(píng)估中,以95.6分超越了OpenAI-o1及DeepSeek-R1,。值得注意的是,,盡管性能大幅提升,但千問(wèn)3的部署成本卻大幅下降,,只需4張H20即可完成滿(mǎn)血版部署,,顯存占用僅為性能相近模型的三分之一。