中國電信發(fā)布單體稠密萬億參數(shù)語義模型 用了普通訓(xùn)練方案9%的算力資源
6月19日,,中國電信人工智能研究院(TeleAI)與北京智源人工智能研究院合作,推出了全球首個(gè)單體稠密萬億參數(shù)的語義模型——Tele-FLM-1T,。這一成就使TeleAI成為國內(nèi)率先進(jìn)入稠密萬億參數(shù)大模型領(lǐng)域的機(jī)構(gòu)之一,。
針對大模型訓(xùn)練過程中高算力消耗的問題,TeleAI與智源的研究團(tuán)隊(duì)采用了模型生長和損失預(yù)測等創(chuàng)新技術(shù),,共同研發(fā)Tele-FLM系列模型,。與業(yè)界常規(guī)訓(xùn)練方案相比,這一方法顯著降低了算力需求,僅使用了9%的算力資源,。通過112臺A800服務(wù)器,,在四個(gè)月的時(shí)間內(nèi),團(tuán)隊(duì)成功完成了3個(gè)模型總計(jì)2.3萬億tokens的訓(xùn)練任務(wù),。
中國電信表示,,Tele-FLM-1T模型即將開放源代碼,旨在為行業(yè)提供萬億稠密模型訓(xùn)練的技術(shù)參考案例,,助力解決模型訓(xùn)練中可能出現(xiàn)的收斂難題,。
作為率先布局并開放大模型的央企研究機(jī)構(gòu),TeleAI在過去一年中展現(xiàn)了其在該領(lǐng)域的持續(xù)進(jìn)步,。繼去年推出千億參數(shù)級別的“星辰”語義大模型之后,,今年2月,“星辰”大模型通過了“境內(nèi)深度合成服務(wù)算法備案”,。5月15日,,根據(jù)相關(guān)公告,“星辰”大模型再度完成產(chǎn)品備案,,這意味著它已具備正式對外提供生成式人工智能服務(wù)的資格,。
在開源領(lǐng)域,TeleAI持續(xù)發(fā)力,,相繼公布了7B,、12B、52B參數(shù)規(guī)模的大模型,。隨著TeleChat系列模型的問世,,TeleAI還對其多個(gè)大模型應(yīng)用項(xiàng)目實(shí)施了性能升級,例如,,在某城市民服務(wù)項(xiàng)目中,,集成TeleChat-52B模型后,整體服務(wù)效能提高了40%,。
6月7日,,阿里云在技術(shù)博客上宣布了一個(gè)重要進(jìn)展:他們發(fā)布了名為Qwen2-72B的開源模型,這款模型在全球范圍內(nèi)以其卓越的性能脫穎而出
2024-06-07 10:49:47阿里云發(fā)布開源模型Qwen2