阿里云發(fā)布開源模型Qwen2,,宣稱性能超美國(guó)最強(qiáng)開源模型Llama3-70B
6月7日,阿里云在技術(shù)博客上宣布了一個(gè)重要進(jìn)展:他們發(fā)布了名為Qwen2-72B的開源模型,這款模型在全球范圍內(nèi)以其卓越的性能脫穎而出,。Qwen2-72B不僅超越了美國(guó)目前最強(qiáng)的開源模型Llama3-70B,還優(yōu)于眾多國(guó)內(nèi)的閉源大型模型,,如文心4.0,、豆包pro、混元pro等。對(duì)于有興趣探索這一新成果的公眾,,阿里云提供了在魔搭社區(qū)和Hugging Face平臺(tái)上免費(fèi)獲取通義千問最新開源模型的途徑,。
此次發(fā)布的Qwen2系列是對(duì)今年2月推出的通義千問Qwen1.5的一次顯著升級(jí),整體性能和多項(xiàng)具體能力均有提升,,涉及代碼處理,、數(shù)學(xué)運(yùn)算、邏輯推理,、指令執(zhí)行以及多語(yǔ)言理解等方面,。Qwen2-72B在一系列國(guó)際公認(rèn)的測(cè)評(píng)中,包括MMLU,、GPQA,、HumanEval等,贏得了多項(xiàng)世界第一,,繼續(xù)拉大與美國(guó)Llama3模型之間的距離,。阿里云發(fā)布開源模型Qwen2,宣稱性能超美國(guó)最強(qiáng)開源模型Llama3-70B,。
Qwen2系列相當(dāng)全面,,涵蓋了從Qwen2-0.5B至Qwen2-72B等多個(gè)不同規(guī)模的預(yù)訓(xùn)練和指令微調(diào)模型,其中特別引入了Qwen2-57B-A14B這一混合專家模型(MoE),,采用了創(chuàng)新的GQA(分組查詢注意力)機(jī)制,。這種機(jī)制使得模型運(yùn)行時(shí)能更高效地利用資源,用戶將體驗(yàn)到更快的推理速度和更低的顯存需求,。
自推出以來,,通義千問Qwen系列在全球范圍內(nèi)迅速走紅,其總下載量在短短一個(gè)月內(nèi)實(shí)現(xiàn)翻番,,目前已超過1600萬(wàn)次,。開源社區(qū)的積極響應(yīng)進(jìn)一步證明了Qwen系列的成功,已有超過1500款基于Qwen的二次開發(fā)模型面世,。值得注意的是,,Qwen系列中的72B及110B模型多次在HuggingFace的Open LLM Leaderboard開源模型排行榜上奪得首位,彰顯了其在全球AI領(lǐng)域的影響力,。