螞蟻集團Ling團隊近日發(fā)表了一篇技術(shù)成果論文,,展示了兩款不同規(guī)模的MoE大語言模型——百靈輕量版(Ling-Lite)和百靈增強版(Ling-Plus),。百靈輕量版參數(shù)規(guī)模為168億,,激活參數(shù)27.5億;百靈增強版基座模型參數(shù)規(guī)模高達2900億,,激活參數(shù)288億,。這兩款模型性能均達到行業(yè)領(lǐng)先水平。
除了自主研發(fā)高性能的大模型外,,該論文還提出了一系列創(chuàng)新方法,,以提升資源受限環(huán)境下AI開發(fā)的效率與可及性。實驗表明,,3000億參數(shù)的MoE大模型可在使用國產(chǎn)GPU的低性能設(shè)備上完成高效訓(xùn)練,,其性能與完全使用英偉達芯片、同規(guī)模的稠密模型及MoE模型相當(dāng),。
近日,,螞蟻集團Ling團隊發(fā)表了一篇技術(shù)成果論文。論文中介紹了兩款不同規(guī)模的MoE大語言模型——百靈輕量版(Ling-Lite)和百靈增強版(Ling-Plus)
2025-03-25 16:05:08螞蟻用國產(chǎn)芯片訓(xùn)練出兩款A(yù)I大模型在DeepSeek極低成本的推動下,開源模型和閉源模型之間的差距顯著縮小,,掀起了一輪國產(chǎn)AI芯片廠商競相適配的風(fēng)潮
2025-02-15 18:37:10DeepSeek訓(xùn)練仍基于英偉達CUDA生態(tài)