中國電信發(fā)布單體稠密萬億參數(shù)語義模型 用了普通訓(xùn)練方案9%的算力資源
6月19日,,中國電信人工智能研究院(TeleAI)與北京智源人工智能研究院合作,,推出了全球首個單體稠密萬億參數(shù)的語義模型——Tele-FLM-1T。這一成就使TeleAI成為國內(nèi)率先進(jìn)入稠密萬億參數(shù)大模型領(lǐng)域的機(jī)構(gòu)之一,。
針對大模型訓(xùn)練過程中高算力消耗的問題,,TeleAI與智源的研究團(tuán)隊(duì)采用了模型生長和損失預(yù)測等創(chuàng)新技術(shù),,共同研發(fā)Tele-FLM系列模型。與業(yè)界常規(guī)訓(xùn)練方案相比,,這一方法顯著降低了算力需求,,僅使用了9%的算力資源。通過112臺A800服務(wù)器,,在四個月的時間內(nèi),,團(tuán)隊(duì)成功完成了3個模型總計(jì)2.3萬億tokens的訓(xùn)練任務(wù)。
中國電信表示,,Tele-FLM-1T模型即將開放源代碼,,旨在為行業(yè)提供萬億稠密模型訓(xùn)練的技術(shù)參考案例,助力解決模型訓(xùn)練中可能出現(xiàn)的收斂難題,。
作為率先布局并開放大模型的央企研究機(jī)構(gòu),,TeleAI在過去一年中展現(xiàn)了其在該領(lǐng)域的持續(xù)進(jìn)步。繼去年推出千億參數(shù)級別的“星辰”語義大模型之后,,今年2月,,“星辰”大模型通過了“境內(nèi)深度合成服務(wù)算法備案”。5月15日,,根據(jù)相關(guān)公告,,“星辰”大模型再度完成產(chǎn)品備案,這意味著它已具備正式對外提供生成式人工智能服務(wù)的資格,。
在開源領(lǐng)域,,TeleAI持續(xù)發(fā)力,相繼公布了7B,、12B,、52B參數(shù)規(guī)模的大模型。隨著TeleChat系列模型的問世,,TeleAI還對其多個大模型應(yīng)用項(xiàng)目實(shí)施了性能升級,,例如,在某城市民服務(wù)項(xiàng)目中,,集成TeleChat-52B模型后,,整體服務(wù)效能提高了40%。
6月7日,,阿里云在技術(shù)博客上宣布了一個重要進(jìn)展:他們發(fā)布了名為Qwen2-72B的開源模型,,這款模型在全球范圍內(nèi)以其卓越的性能脫穎而出
2024-06-07 10:49:47阿里云發(fā)布開源模型Qwen26月20日,,Anthropic發(fā)布了一款名為Claude 3.5 Sonnet的AI模型,,這款模型在多個領(lǐng)域超越了競爭對手,包括GPT-4o及自家的Claude 3 Opus
2024-06-21 10:45:07Claude3.5突然發(fā)布,!GPT-4o不香了