中國(guó)電信發(fā)布單體稠密萬(wàn)億參數(shù)語(yǔ)義模型 用了普通訓(xùn)練方案9%的算力資源
6月19日,中國(guó)電信人工智能研究院(TeleAI)與北京智源人工智能研究院合作,,推出了全球首個(gè)單體稠密萬(wàn)億參數(shù)的語(yǔ)義模型——Tele-FLM-1T,。這一成就使TeleAI成為國(guó)內(nèi)率先進(jìn)入稠密萬(wàn)億參數(shù)大模型領(lǐng)域的機(jī)構(gòu)之一。
針對(duì)大模型訓(xùn)練過(guò)程中高算力消耗的問(wèn)題,,TeleAI與智源的研究團(tuán)隊(duì)采用了模型生長(zhǎng)和損失預(yù)測(cè)等創(chuàng)新技術(shù),,共同研發(fā)Tele-FLM系列模型。與業(yè)界常規(guī)訓(xùn)練方案相比,,這一方法顯著降低了算力需求,僅使用了9%的算力資源,。通過(guò)112臺(tái)A800服務(wù)器,,在四個(gè)月的時(shí)間內(nèi),團(tuán)隊(duì)成功完成了3個(gè)模型總計(jì)2.3萬(wàn)億tokens的訓(xùn)練任務(wù),。
中國(guó)電信表示,,Tele-FLM-1T模型即將開(kāi)放源代碼,旨在為行業(yè)提供萬(wàn)億稠密模型訓(xùn)練的技術(shù)參考案例,,助力解決模型訓(xùn)練中可能出現(xiàn)的收斂難題,。
作為率先布局并開(kāi)放大模型的央企研究機(jī)構(gòu),TeleAI在過(guò)去一年中展現(xiàn)了其在該領(lǐng)域的持續(xù)進(jìn)步,。繼去年推出千億參數(shù)級(jí)別的“星辰”語(yǔ)義大模型之后,,今年2月,“星辰”大模型通過(guò)了“境內(nèi)深度合成服務(wù)算法備案”,。5月15日,,根據(jù)相關(guān)公告,,“星辰”大模型再度完成產(chǎn)品備案,這意味著它已具備正式對(duì)外提供生成式人工智能服務(wù)的資格,。
在開(kāi)源領(lǐng)域,,TeleAI持續(xù)發(fā)力,相繼公布了7B,、12B,、52B參數(shù)規(guī)模的大模型。隨著TeleChat系列模型的問(wèn)世,,TeleAI還對(duì)其多個(gè)大模型應(yīng)用項(xiàng)目實(shí)施了性能升級(jí),,例如,在某城市民服務(wù)項(xiàng)目中,,集成TeleChat-52B模型后,,整體服務(wù)效能提高了40%。
6月7日,,阿里云在技術(shù)博客上宣布了一個(gè)重要進(jìn)展:他們發(fā)布了名為Qwen2-72B的開(kāi)源模型,,這款模型在全球范圍內(nèi)以其卓越的性能脫穎而出
2024-06-07 10:49:47阿里云發(fā)布開(kāi)源模型Qwen2