螞蟻集團(tuán)取得重大AI突破降低訓(xùn)練成本20%

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-03-25 11:24:28 中國基金報(bào)

國產(chǎn)AI模型再次取得突破,。3月24日,，螞蟻集團(tuán)宣布使用國產(chǎn)芯片開發(fā)了一種訓(xùn)練人工智能模型的技術(shù)，可將成本降低20%,。知情人士透露,，螞蟻集團(tuán)采用國產(chǎn)芯片,，并基于“專家混合”機(jī)器學(xué)習(xí)方法來訓(xùn)練模型，效果與英偉達(dá)H800等芯片相當(dāng),。

這一進(jìn)展表明螞蟻集團(tuán)加入了AI領(lǐng)域的競爭,。自DeepSeek展示出能夠以遠(yuǎn)低于OpenAI和谷歌的成本訓(xùn)練強(qiáng)大模型以來，競爭加速升級(jí),。這也反映出中國企業(yè)正積極嘗試用本土替代方案取代英偉達(dá)的高端半導(dǎo)體產(chǎn)品,，盡管H800并非英偉達(dá)最頂級(jí)的芯片。

近期,，螞蟻集團(tuán)Ling團(tuán)隊(duì)發(fā)表了最新技術(shù)成果論文《每一個(gè)FLOP都至關(guān)重要：無需高級(jí)GPU即可擴(kuò)展3000億參數(shù)混合專家LING大模型》,。論文提到，近年來,，隨著大型語言模型的快速發(fā)展,，學(xué)術(shù)界和產(chǎn)業(yè)界圍繞通用人工智能展開了廣泛討論。盡管稠密模型取得了顯著進(jìn)展,，專家混合模型在某些特定任務(wù)中已展現(xiàn)出優(yōu)于傳統(tǒng)稠密模型的性能,。

然而，MoE模型的訓(xùn)練通常依賴于高性能計(jì)算資源,，其高昂的成本限制了其在資源受限環(huán)境中的廣泛應(yīng)用,。因此，該研究旨在提出創(chuàng)新的訓(xùn)練策略,，使LLM在資源和預(yù)算受限的情況下也能實(shí)現(xiàn)高效訓(xùn)練,，推動(dòng)AI技術(shù)的普惠發(fā)展。

為了給業(yè)界提供一種適用于資源受限場景的模型訓(xùn)練新路徑,，論文介紹了兩款開源MoE模型：Ling-Lite（總參數(shù)16.8B,，激活參數(shù)2.75B）與Ling-Plus（總參數(shù)290B，激活參數(shù)28.8B）,，重點(diǎn)展示其探索與優(yōu)化過程,。基于優(yōu)化技術(shù)，螞蟻集團(tuán)開發(fā)并開源了Ling系列MoE模型,，在資源成本與模型性能之間取得良好平衡,。例如，Ling-Plus模型在五種不同硬件配置下完成9萬億token的預(yù)訓(xùn)練任務(wù),。若使用高性能硬件設(shè)備訓(xùn)練1萬億token,，預(yù)計(jì)成本為635萬元人民幣；而使用低規(guī)格硬件系統(tǒng)則成本約為508萬元,，節(jié)省近20%,。這證明即使在低性能設(shè)備上，也能實(shí)現(xiàn)大規(guī)模MoE模型的有效訓(xùn)練,，提升了基礎(chǔ)模型開發(fā)在計(jì)算資源選擇上的靈活性與性價(jià)比,。

實(shí)驗(yàn)結(jié)果最終表明，一個(gè)規(guī)模為300B的MoE大語言模型可以在性能較低的設(shè)備上有效訓(xùn)練,，并在性能上達(dá)到與同規(guī)模的其他模型相當(dāng)?shù)乃?。與高性能設(shè)備相比，在預(yù)訓(xùn)練階段使用低規(guī)格硬件系統(tǒng)可顯著節(jié)約成本,，計(jì)算開支約降低20%,。

當(dāng)前最先進(jìn)的MoE模型在訓(xùn)練過程中嚴(yán)重依賴高性能AI加速器，這類高端硬件持續(xù)供不應(yīng)求,。相比之下,，性能較低的加速器更易獲得且單價(jià)更低。這種差異凸顯出建立一種能夠在異構(gòu)計(jì)算單元和分布式集群之間無縫切換的技術(shù)體系的必要性,，從而優(yōu)化訓(xùn)練與推理的整體成本,。

MoE模型的訓(xùn)練通常依賴于如英偉達(dá)所售GPU這類高性能芯片，這使得訓(xùn)練成本對(duì)許多中小企業(yè)而言過于高昂,，限制了更廣泛的應(yīng)用,。螞蟻集團(tuán)一直在致力于提高大語言模型的訓(xùn)練效率,，并突破這一限制,。從其論文標(biāo)題即可看出，該公司將目標(biāo)定為“在無需高端GPU的情況下擴(kuò)展模型規(guī)?！?。

這一方向與英偉達(dá)的戰(zhàn)略背道而馳。英偉達(dá)首席執(zhí)行官黃仁勛曾表示,，即便更高效的模型出現(xiàn),，對(duì)計(jì)算力的需求仍會(huì)持續(xù)增長，企業(yè)要實(shí)現(xiàn)更多營收將依賴更強(qiáng)大的芯片,，而非通過更便宜的芯片來削減成本,。他堅(jiān)持打造具備更多處理核心、更高晶體管數(shù)量和更大內(nèi)存容量的大型GPU的戰(zhàn)略。

螞蟻集團(tuán)的研究論文凸顯出中國AI領(lǐng)域技術(shù)創(chuàng)新和發(fā)展速度的加快,。如果其研究成果屬實(shí),，這將表明中國在人工智能領(lǐng)域正逐步走向自主可控，特別是在尋求成本更低,、計(jì)算效率更高的模型架構(gòu)來應(yīng)對(duì)英偉達(dá)芯片出口限制的背景下,。

針對(duì)此事，螞蟻集團(tuán)回應(yīng)稱,，他們針對(duì)不同芯片持續(xù)調(diào)優(yōu),，以降低AI應(yīng)用成本，目前取得了一定的進(jìn)展,，也會(huì)逐步通過開源分享,。

(責(zé)任編輯：張小花 TT1000)

關(guān)閉

螞蟻集團(tuán)取得重大AI突破 降低訓(xùn)練成本20%

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

螞蟻集團(tuán)取得重大AI突破降低訓(xùn)練成本20%