阿里巴巴周一發(fā)布了通義千問3.0(Qwen3)系列模型并開源。該系列在數(shù)學(xué)和編程等多個方面性能與DeepSeek相當(dāng),,且部署成本顯著降低,。Qwen3支持119種語言,便于Agent調(diào)用,,并集成了兩種思考模式,。
Qwen3系列包括兩個專家混合(MoE)模型和其他六個模型。旗艦?zāi)P蚎wen3-235B-A22B在代碼,、數(shù)學(xué),、通用能力等基準(zhǔn)測試中表現(xiàn)出色,,與頂級模型相比具有競爭力。小型MoE模型Qwen3-30B-A3B的激活參數(shù)數(shù)量僅為QwQ-32B的10%,,但表現(xiàn)更優(yōu),。這些系統(tǒng)通過將任務(wù)劃分為更小的數(shù)據(jù)集來提升整體效率。
阿里巴巴還開源了Qwen3-235B-A22B和Qwen3-30B-A3B的權(quán)重,,以及六個Dense模型,,均在Apache 2.0許可下開源。Qwen3系列是“混合型”模型,,既能在復(fù)雜問題上進行推理,,也能快速回答簡單請求。這種靈活性讓用戶能夠根據(jù)具體任務(wù)控制模型的“思考”程度,,從而實現(xiàn)高效的任務(wù)處理,。
Qwen3系列基于近36萬億個token進行訓(xùn)練,數(shù)據(jù)量是Qwen2.5的兩倍,。預(yù)訓(xùn)練過程分為三個階段,,逐步增加知識密集型數(shù)據(jù)的比例,并擴展上下文長度,。Qwen3 Dense基礎(chǔ)模型的整體性能與更大規(guī)模的Qwen2.5基礎(chǔ)模型相當(dāng),,特別是在STEM、編碼和推理等領(lǐng)域表現(xiàn)優(yōu)異,。后訓(xùn)練階段,,阿里使用多樣化的長思維鏈數(shù)據(jù)對模型進行了微調(diào),增強了其探索和鉆研能力,。
Qwen3在工具調(diào)用,、執(zhí)行指令等方面表現(xiàn)出色,推薦用戶使用Qwen-Agent來充分發(fā)揮其能力,。除了提供下載版本外,,Qwen3還可以通過Fireworks AI、Hyperbolic等云服務(wù)提供商使用,。
近期,,OpenAI、谷歌和Anthropic也推出了多款新模型,。阿里巴巴正以Qwen為核心構(gòu)建其AI版圖,,目標(biāo)是實現(xiàn)通用人工智能(AGI)。Qwen3代表了該公司在通往AGI旅程中的一個重要里程碑,。未來,,阿里計劃從多個維度提升模型,包括優(yōu)化架構(gòu)和訓(xùn)練方法,擴展數(shù)據(jù)規(guī)模,,增加模型大小,延長上下文長度,,并利用環(huán)境反饋推進強化學(xué)習(xí),。
Qwen3的發(fā)布讓AI社區(qū)感到振奮,有網(wǎng)友對其性能表示贊賞,,認(rèn)為它在高維張量運算方面的表現(xiàn)相當(dāng)于Sonnet,。開源AI的支持者也非常興奮,感謝阿里積極推動開源,。
阿里通義千問開源負責(zé)人林俊旸在X上發(fā)文暗示,,Qwen3模型有望于4月28日發(fā)布
2025-04-29 21:25:44阿里通義千問模型Qwen3有哪些亮點