螞蟻集團(tuán)Ling團(tuán)隊(duì)近日發(fā)表了一篇技術(shù)成果論文,展示了兩款不同規(guī)模的MoE大語(yǔ)言模型——百靈輕量版(Ling-Lite)和百靈增強(qiáng)版(Ling-Plus),。百靈輕量版參數(shù)規(guī)模為168億,,激活參數(shù)27.5億,;百靈增強(qiáng)版基座模型參數(shù)規(guī)模高達(dá)2900億,,激活參數(shù)288億,。這兩款模型性能均達(dá)到行業(yè)領(lǐng)先水平,。
除了自主研發(fā)高性能的大模型外,,該論文還提出了一系列創(chuàng)新方法,以提升資源受限環(huán)境下AI開(kāi)發(fā)的效率與可及性,。實(shí)驗(yàn)表明,,3000億參數(shù)的MoE大模型可在使用國(guó)產(chǎn)GPU的低性能設(shè)備上完成高效訓(xùn)練,其性能與完全使用英偉達(dá)芯片,、同規(guī)模的稠密模型及MoE模型相當(dāng),。
在DeepSeek極低成本的推動(dòng)下,,開(kāi)源模型和閉源模型之間的差距顯著縮小,掀起了一輪國(guó)產(chǎn)AI芯片廠商競(jìng)相適配的風(fēng)潮
2025-02-15 18:37:10DeepSeek訓(xùn)練仍基于英偉達(dá)CUDA生態(tài)