國產(chǎn)AI模型再次取得突破。3月24日,,螞蟻集團(tuán)宣布使用國產(chǎn)芯片開發(fā)了一種訓(xùn)練人工智能模型的技術(shù),,可將成本降低20%。知情人士透露,,螞蟻集團(tuán)采用國產(chǎn)芯片,,并基于“專家混合”機(jī)器學(xué)習(xí)方法來訓(xùn)練模型,效果與英偉達(dá)H800等芯片相當(dāng),。
這一進(jìn)展表明螞蟻集團(tuán)加入了AI領(lǐng)域的競爭,。自DeepSeek展示出能夠以遠(yuǎn)低于OpenAI和谷歌的成本訓(xùn)練強(qiáng)大模型以來,競爭加速升級(jí),。這也反映出中國企業(yè)正積極嘗試用本土替代方案取代英偉達(dá)的高端半導(dǎo)體產(chǎn)品,,盡管H800并非英偉達(dá)最頂級(jí)的芯片,。
近期,螞蟻集團(tuán)Ling團(tuán)隊(duì)發(fā)表了最新技術(shù)成果論文《每一個(gè)FLOP都至關(guān)重要:無需高級(jí)GPU即可擴(kuò)展3000億參數(shù)混合專家LING大模型》,。論文提到,,近年來,隨著大型語言模型的快速發(fā)展,,學(xué)術(shù)界和產(chǎn)業(yè)界圍繞通用人工智能展開了廣泛討論,。盡管稠密模型取得了顯著進(jìn)展,專家混合模型在某些特定任務(wù)中已展現(xiàn)出優(yōu)于傳統(tǒng)稠密模型的性能,。
然而,,MoE模型的訓(xùn)練通常依賴于高性能計(jì)算資源,其高昂的成本限制了其在資源受限環(huán)境中的廣泛應(yīng)用,。因此,,該研究旨在提出創(chuàng)新的訓(xùn)練策略,使LLM在資源和預(yù)算受限的情況下也能實(shí)現(xiàn)高效訓(xùn)練,,推動(dòng)AI技術(shù)的普惠發(fā)展,。
為了給業(yè)界提供一種適用于資源受限場景的模型訓(xùn)練新路徑,論文介紹了兩款開源MoE模型:Ling-Lite(總參數(shù)16.8B,,激活參數(shù)2.75B)與Ling-Plus(總參數(shù)290B,,激活參數(shù)28.8B),重點(diǎn)展示其探索與優(yōu)化過程,?;趦?yōu)化技術(shù),螞蟻集團(tuán)開發(fā)并開源了Ling系列MoE模型,,在資源成本與模型性能之間取得良好平衡,。例如,Ling-Plus模型在五種不同硬件配置下完成9萬億token的預(yù)訓(xùn)練任務(wù),。若使用高性能硬件設(shè)備訓(xùn)練1萬億token,,預(yù)計(jì)成本為635萬元人民幣;而使用低規(guī)格硬件系統(tǒng)則成本約為508萬元,,節(jié)省近20%,。這證明即使在低性能設(shè)備上,也能實(shí)現(xiàn)大規(guī)模MoE模型的有效訓(xùn)練,,提升了基礎(chǔ)模型開發(fā)在計(jì)算資源選擇上的靈活性與性價(jià)比,。
中國基金報(bào)記者曹雯璟2024年12月8日是支付寶和螞蟻集團(tuán)的二十歲生日。
2024-12-09 07:49:33螞蟻重大宣布,!又一次見證歷史