阿里云發(fā)布開源模型Qwen2,，宣稱性能超美國最強(qiáng)開源模型Llama3-70B

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2024-06-07 10:49:47 新浪

6月7日，阿里云在技術(shù)博客上宣布了一個(gè)重要進(jìn)展：他們發(fā)布了名為Qwen2-72B的開源模型,，這款模型在全球范圍內(nèi)以其卓越的性能脫穎而出,。Qwen2-72B不僅超越了美國目前最強(qiáng)的開源模型Llama3-70B，還優(yōu)于眾多國內(nèi)的閉源大型模型,，如文心4.0,、豆包pro、混元pro等,。對(duì)于有興趣探索這一新成果的公眾,，阿里云提供了在魔搭社區(qū)和Hugging Face平臺(tái)上免費(fèi)獲取通義千問最新開源模型的途徑。

此次發(fā)布的Qwen2系列是對(duì)今年2月推出的通義千問Qwen1.5的一次顯著升級(jí),，整體性能和多項(xiàng)具體能力均有提升,，涉及代碼處理、數(shù)學(xué)運(yùn)算,、邏輯推理,、指令執(zhí)行以及多語言理解等方面,。Qwen2-72B在一系列國際公認(rèn)的測(cè)評(píng)中，包括MMLU,、GPQA,、HumanEval等，贏得了多項(xiàng)世界第一,，繼續(xù)拉大與美國Llama3模型之間的距離,。阿里云發(fā)布開源模型Qwen2，宣稱性能超美國最強(qiáng)開源模型Llama3-70B,。

Qwen2系列相當(dāng)全面,，涵蓋了從Qwen2-0.5B至Qwen2-72B等多個(gè)不同規(guī)模的預(yù)訓(xùn)練和指令微調(diào)模型，其中特別引入了Qwen2-57B-A14B這一混合專家模型（MoE）,，采用了創(chuàng)新的GQA（分組查詢注意力）機(jī)制,。這種機(jī)制使得模型運(yùn)行時(shí)能更高效地利用資源，用戶將體驗(yàn)到更快的推理速度和更低的顯存需求,。

自推出以來,，通義千問Qwen系列在全球范圍內(nèi)迅速走紅，其總下載量在短短一個(gè)月內(nèi)實(shí)現(xiàn)翻番,，目前已超過1600萬次,。開源社區(qū)的積極響應(yīng)進(jìn)一步證明了Qwen系列的成功，已有超過1500款基于Qwen的二次開發(fā)模型面世,。值得注意的是,，Qwen系列中的72B及110B模型多次在HuggingFace的Open LLM Leaderboard開源模型排行榜上奪得首位，彰顯了其在全球AI領(lǐng)域的影響力,。

(責(zé)任編輯：盧其龍 CN070)

關(guān)閉

阿里云發(fā)布開源模型Qwen2,，宣稱性能超美國最強(qiáng)開源模型Llama3-70B

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)