亚洲一卡2卡3卡4卡5卡6卡_99RE6在线观看国产精品_99欧美日本一区二区留学生_成人国产精品日本在线观看_丰满爆乳在线播放_免费国产午夜理论片不卡_欧美成 人影片 免费观看_日产中字乱码一二三_肉感饱满中年熟妇日本_午夜男女爽爽影院免费视频下载,民工把我奶头掏出来在线视频,日韩经典亚洲,国产精品JIZZ在线观看无码

中華網(wǎng) china.com

新聞

揭秘DeepSeek內(nèi)幕,,為什么強(qiáng)化學(xué)習(xí)是下一個 Scaling Law? 創(chuàng)新引領(lǐng)算力革命

關(guān)鍵詞:
2025-02-28 10:21:35  新浪財(cái)經(jīng)

揭秘DeepSeek內(nèi)幕,為什么強(qiáng)化學(xué)習(xí)是下一個 Scaling Law,?近期,,中國企業(yè)DeepSeek(以下簡稱DS)全面開源了其創(chuàng)新成果,引發(fā)了市場對生成式AI技術(shù)發(fā)展與算力硬件需求的熱烈討論,。DS的V3版本模型以僅1/10訓(xùn)練成本消耗便獲得了與海外領(lǐng)先模型GPT-4o/Llama3.3對標(biāo)的能力,,并通過對V3同一基礎(chǔ)模型的后訓(xùn)練,獲得了能力對齊GPT-o1的R1模型,。這種創(chuàng)新在中美貿(mào)易摩擦背景下AI硬件采購受限的情況下顯得尤為重要,,它并未提出任何反“Scaling Law”的趨勢,而是通過提高全行業(yè)算力資源使用效率來創(chuàng)造更大的需求,。

揭秘DeepSeek內(nèi)幕,,為什么強(qiáng)化學(xué)習(xí)是下一個 Scaling Law?

DS V3通過多種方式優(yōu)化算力使用:在MLP層引入稀疏化的MoE架構(gòu),,只需根據(jù)輸入數(shù)據(jù)特點(diǎn)調(diào)動部分專家模型進(jìn)行處理,,無需復(fù)用所有參數(shù);引入FP8精度訓(xùn)練,,采用MTP(多token生成)優(yōu)化訓(xùn)練效率,;在后訓(xùn)練階段簡化模型數(shù)量,優(yōu)化獎勵機(jī)制,,獨(dú)創(chuàng)GRPO算法為強(qiáng)化學(xué)習(xí)提供方向,。

揭秘DeepSeek內(nèi)幕,為什么強(qiáng)化學(xué)習(xí)是下一個 Scaling Law,? 創(chuàng)新引領(lǐng)算力革命

PTX代碼的加持進(jìn)一步釋放了硬件使用效率,。確定創(chuàng)新的模型網(wǎng)絡(luò)結(jié)構(gòu)后,有針對性地設(shè)計(jì)和優(yōu)化AI基礎(chǔ)設(shè)施變得迫切,。DS團(tuán)隊(duì)具有軟硬件一體化系統(tǒng)性的思考能力,,這為其成功提供了重要支持。隨著“大模型平權(quán)”帶來的進(jìn)一步硬件需求釋放,,未來AI基礎(chǔ)設(shè)施的重要性有望日益凸顯,。

揭秘DeepSeek內(nèi)幕,為什么強(qiáng)化學(xué)習(xí)是下一個 Scaling Law,? 創(chuàng)新引領(lǐng)算力革命

MoE結(jié)構(gòu)可能帶來對處理器架構(gòu)的定制化需求,,如更大的計(jì)算單元、高效的通信內(nèi)核和近存計(jì)算單元等,。雖然大量使用專家并行減少了張量并行,,但并不能證明高速互聯(lián)需求在更強(qiáng)基礎(chǔ)模型訓(xùn)練中呈下降趨勢。國產(chǎn)算力若要運(yùn)行訓(xùn)練場景,,需對FP8數(shù)據(jù)類型及高算力做好進(jìn)一步支持,。

揭秘DeepSeek內(nèi)幕,為什么強(qiáng)化學(xué)習(xí)是下一個 Scaling Law,? 創(chuàng)新引領(lǐng)算力革命

分析顯示,,DeepSeek在模型訓(xùn)練過程中引入了多項(xiàng)創(chuàng)新。堅(jiān)定不移延續(xù)MoE路徑,稀疏化架構(gòu)減少算力消耗,。MoE最早在1991年被提出,,是一種網(wǎng)絡(luò)層結(jié)構(gòu),主要由專家網(wǎng)絡(luò),、門控網(wǎng)絡(luò)與選擇器組成,。DeepSeek在訓(xùn)練上采用稀疏MoE架構(gòu),其門控機(jī)制僅激活少數(shù)設(shè)備上的少量專家,,在擴(kuò)大模型容量同時控制訓(xùn)練資源消耗,。

揭秘DeepSeek內(nèi)幕,為什么強(qiáng)化學(xué)習(xí)是下一個 Scaling Law,? 創(chuàng)新引領(lǐng)算力革命

實(shí)證結(jié)果表明,,DeepSeek MoE 2B的性能與GShard 2.9B相當(dāng),而后者專家參數(shù)量和計(jì)算量均為前者的1.5倍,。擴(kuò)展至16B參數(shù)規(guī)模時,,DeepSeek MoE的性能與LLaMA2 7B相當(dāng),而計(jì)算量僅需后者的約40%,。在145B參數(shù)規(guī)模的初步實(shí)驗(yàn)中,,DeepSeek MoE較GShard展現(xiàn)出顯著優(yōu)勢,性能媲美DeepSeek 67B,,而計(jì)算量僅需后者的28.5%,。

揭秘DeepSeek內(nèi)幕,為什么強(qiáng)化學(xué)習(xí)是下一個 Scaling Law,? 創(chuàng)新引領(lǐng)算力革命

采用FP8精度訓(xùn)練,,節(jié)省計(jì)算單元占用,進(jìn)而節(jié)省算力資源,。低數(shù)據(jù)精度訓(xùn)練是降低訓(xùn)練成本的較有前景的方向之一,。通常的大模型訓(xùn)練會采用BF16或FP32/TF32精度作為數(shù)據(jù)計(jì)算和存儲的格式,相比之下,,F(xiàn)P8占用的數(shù)據(jù)位寬僅為FP32的1/4,,F(xiàn)P16的1/2,可以有力地提升計(jì)算速度,,降低對存儲的消耗。DeepSeek團(tuán)隊(duì)在訓(xùn)練DeepSeek-V3時,,采用的是混合精度框架,,大部分密集計(jì)算操作都以FP8格式進(jìn)行,而少數(shù)關(guān)鍵操作則策略性地保留其原始數(shù)據(jù)格式,,以平衡訓(xùn)練效率和數(shù)值穩(wěn)定性,。

揭秘DeepSeek內(nèi)幕,為什么強(qiáng)化學(xué)習(xí)是下一個 Scaling Law? 創(chuàng)新引領(lǐng)算力革命

采用MTP方法,,多token預(yù)測提高模型訓(xùn)練效率,。Meta發(fā)布的論文《Better & Faster Large Language Models via Multi-token Prediction》提出了讓大模型一次性預(yù)測多個token,并依據(jù)多個token計(jì)算損失的方法,。在訓(xùn)練中使用MTP技術(shù)主要會通過增加給定數(shù)據(jù)量下獲得的訓(xùn)練信號密度和改變傳統(tǒng)模型的計(jì)算模式來降低模型的訓(xùn)練成本,。

揭秘DeepSeek內(nèi)幕,為什么強(qiáng)化學(xué)習(xí)是下一個 Scaling Law,? 創(chuàng)新引領(lǐng)算力革命

后訓(xùn)練階段引入GRPO算法,,拋棄MCTS等傳統(tǒng)方法,優(yōu)化算力開銷,。DeepSeek團(tuán)隊(duì)首次提出了GRPO的概念并將其應(yīng)用于強(qiáng)化學(xué)習(xí)過程中,,指出應(yīng)用了GRPO技術(shù)的強(qiáng)化學(xué)習(xí)對于強(qiáng)化LLMs的數(shù)學(xué)推理能力非常有效。在訓(xùn)練R1-Zero的過程中,,DeepSeek團(tuán)隊(duì)完全依賴于應(yīng)用了GRPO技術(shù)的強(qiáng)化學(xué)習(xí),。

揭秘DeepSeek內(nèi)幕,為什么強(qiáng)化學(xué)習(xí)是下一個 Scaling Law,? 創(chuàng)新引領(lǐng)算力革命

硬件工程化創(chuàng)新方面,,隨著大模型不斷發(fā)展,全球各團(tuán)隊(duì)面臨模型參數(shù)越來越大,、數(shù)據(jù)量越來越多的問題,。單臺計(jì)算設(shè)備難以獨(dú)自滿足大模型的要求,使用多臺設(shè)備同時運(yùn)算的“分布式并行”策略成為主流選擇,。DeepSeek團(tuán)隊(duì)在硬件工程優(yōu)化中使用了PTX代碼,,顯著提升了CUDA程序的可移植性,便于優(yōu)化和精確控制硬件調(diào)度,。

揭秘DeepSeek內(nèi)幕,,為什么強(qiáng)化學(xué)習(xí)是下一個 Scaling Law? 創(chuàng)新引領(lǐng)算力革命

專家并行策略將MoE架構(gòu)下的各個“專家”子模型部署到不同的GPU或計(jì)算節(jié)點(diǎn)上,,使其獨(dú)立運(yùn)算,。DeepSeek團(tuán)隊(duì)在訓(xùn)練中所使用的EP策略中引入了無輔助損耗的負(fù)載平衡,通過動態(tài)偏置項(xiàng)實(shí)現(xiàn)對每個專家的訓(xùn)練程度的平衡,。

揭秘DeepSeek內(nèi)幕,,為什么強(qiáng)化學(xué)習(xí)是下一個 Scaling Law? 創(chuàng)新引領(lǐng)算力革命

雙重流水線策略通過將一個較大數(shù)據(jù)批次分解為多個微批次,,減少了計(jì)算設(shè)備的空閑時間,。DeepSeek團(tuán)隊(duì)在傳統(tǒng)PP策略的基礎(chǔ)上創(chuàng)新性地提出并應(yīng)用了Dual Pipe技術(shù),有效地融合了前向和后向計(jì)算加速通信,。

揭秘DeepSeek內(nèi)幕,,為什么強(qiáng)化學(xué)習(xí)是下一個 Scaling Law,? 創(chuàng)新引領(lǐng)算力革命

PTX代碼加持為硬件工程化創(chuàng)新帶來進(jìn)一步可能。DS團(tuán)隊(duì)在實(shí)施硬件工程優(yōu)化的過程中使用了PTX代碼,,顯著提升了CUDA程序的可移植性和硬件調(diào)度效率,。PTX指令集可以實(shí)現(xiàn)矩陣乘法加速、數(shù)據(jù)精度轉(zhuǎn)化等多項(xiàng)硬件調(diào)度優(yōu)化方向,。

揭秘DeepSeek內(nèi)幕,,為什么強(qiáng)化學(xué)習(xí)是下一個 Scaling Law? 創(chuàng)新引領(lǐng)算力革命

未來計(jì)算架構(gòu)設(shè)計(jì)可能會受到稀疏化MLP層的影響,,芯片架構(gòu)可能發(fā)生變化,,設(shè)計(jì)針對不同MLP層的定制化架構(gòu)加速專家運(yùn)算。通信設(shè)計(jì)方面,,MoE架構(gòu)下的專家并行并不一定減少高速通信的需求,,具體問題需要具體分析。

揭秘DeepSeek內(nèi)幕,,為什么強(qiáng)化學(xué)習(xí)是下一個 Scaling Law,? 創(chuàng)新引領(lǐng)算力革命

對于訓(xùn)練硬件市場需求的變化,DS團(tuán)隊(duì)的創(chuàng)新成果使得“大模型平權(quán)”成為可能,。盡管短期內(nèi)更大的邊際成本投入不會停止,,但開源模型的勝利加速了行業(yè)技術(shù)革新,利好預(yù)訓(xùn)練硬件需求,。后訓(xùn)練方面,,GRPO算法的引入使得DS團(tuán)隊(duì)找到了讓模型自我學(xué)習(xí)的方法,加速了后訓(xùn)練端算力需求釋放,。

揭秘DeepSeek內(nèi)幕,,為什么強(qiáng)化學(xué)習(xí)是下一個 Scaling Law? 創(chuàng)新引領(lǐng)算力革命

國產(chǎn)算力支持DeepSeek訓(xùn)練存在一些挑戰(zhàn),,尤其是缺少對FP8精度的支持,。可以通過多級路由實(shí)現(xiàn)更精細(xì)化的專家顆粒度,,解決部分問題,。通信庫的優(yōu)化也非常重要,第三方AI基礎(chǔ)設(shè)施企業(yè)的商業(yè)機(jī)會與價值也會被凸顯出來,。

揭秘DeepSeek內(nèi)幕,,為什么強(qiáng)化學(xué)習(xí)是下一個 Scaling Law? 創(chuàng)新引領(lǐng)算力革命

風(fēng)險(xiǎn)包括生成式AI模型創(chuàng)新不及預(yù)期,、AI算力硬件技術(shù)迭代不及預(yù)期以及AI應(yīng)用落地進(jìn)展不及預(yù)期,。這些因素都可能影響技術(shù)迭代與產(chǎn)業(yè)升級進(jìn)程。

揭秘DeepSeek內(nèi)幕,,為什么強(qiáng)化學(xué)習(xí)是下一個 Scaling Law? 創(chuàng)新引領(lǐng)算力革命

(責(zé)任編輯:盧其龍 CN070)
關(guān)閉

開玩笑的么?弗里克想要6000萬 費(fèi)蘭換小蜘蛛,,西蒙尼怎會考慮 馬競射手非賣品

開玩笑的么,弗里克想要6000萬費(fèi)蘭換小蜘蛛,西蒙尼怎會考慮2025-02-28 10:19:08

女演員拍短劇失聯(lián),?警方發(fā)現(xiàn)疑似目標(biāo) 多地警方介入搜尋

女演員拍短劇失聯(lián),警方發(fā)現(xiàn)疑似目標(biāo)2025-02-28 10:18:41

“千年一遇的七星連珠”今晚上演 并非罕見現(xiàn)象

千年一遇的七星連珠今晚上演2025-02-28 10:17:41

女子稱坐順風(fēng)車司機(jī)一路播放不雅視頻

女子坐順風(fēng)車司機(jī)播放不雅視頻2025-02-28 10:15:13

4035秒!北京量子院光聲量子存儲器信息存儲時長創(chuàng)世界紀(jì)錄 刷新多項(xiàng)國際紀(jì)錄

4035秒,北京量子院光聲量子存儲器信息存儲時長創(chuàng)世界紀(jì)錄2025-02-28 08:57:27

美官員稱特朗普放寬軍事突襲和空襲限制 擴(kuò)大可被打擊目標(biāo)范圍 指揮官獲更大自由

美官員稱特朗普放寬軍事突襲和空襲限制擴(kuò)大可被打擊目標(biāo)范圍2025-02-28 08:51:55

代理律師解讀馬航MH370重啟搜索 AI技術(shù)助力新搜尋

代理律師解讀馬航MH370重啟搜索2025-02-28 10:12:04

烏美礦產(chǎn)協(xié)議全文 共建烏克蘭未來

烏美礦產(chǎn)協(xié)議全文2025-02-28 08:55:29

美國驚現(xiàn)末日病毒,,致死率達(dá)70%,?純屬誤導(dǎo),尚無科學(xué)依據(jù),! 疫情引發(fā)社會恐慌

美國驚現(xiàn)末日病毒,致死率達(dá)70%,純屬誤導(dǎo),尚無科學(xué)依據(jù)2025-02-28 08:34:45

開玩笑的么,?弗里克想要6000萬 費(fèi)蘭換小蜘蛛,西蒙尼怎會考慮 馬競射手非賣品

開玩笑的么,弗里克想要6000萬費(fèi)蘭換小蜘蛛,西蒙尼怎會考慮2025-02-28 10:19:08

美股7巨頭市值一夜蒸發(fā)4萬億 市場恐慌情緒加劇

美股7巨頭市值一夜蒸發(fā)4萬億2025-02-28 10:09:36

朝鮮對西方游客開放 旅游業(yè)重啟信號

朝鮮對西方游客開放2025-02-28 09:22:34

特斯拉智駕是否水土不服 市場適應(yīng)難題待解

特斯拉智駕是否水土不服2025-02-28 08:53:36

“千年一遇的七星連珠”今晚上演 并非罕見現(xiàn)象

千年一遇的七星連珠今晚上演2025-02-28 10:17:41

女子患怪病一見陌生人緊張就暈倒,,記者正采訪時又突然倒地,!

女子患怪病一見陌生人緊張就暈倒2025-02-28 10:17:20

澳防長:澳軍艦靠近中國頻率更高

澳防長:澳軍艦靠近中國頻率更高2025-02-28 09:34:43

研究生橫店做群演:上午學(xué)生晚上女傭 體驗(yàn)角色多變生活

研究生橫店做群演,上午學(xué)生晚上女傭2025-02-28 10:13:22

專家評特朗普拒絕承諾“出兵保臺”

專家評特朗普拒絕承諾“出兵保臺”2025-02-28 09:33:26

境外間諜把黑手伸向了我國未成年人 警惕成為電詐“工具人”

境外間諜把黑手伸向了我國未成年人2025-02-28 10:02:45

賣糖葫蘆噴口水大姨道歉 :以后會戴口罩

賣糖葫蘆噴口水大姨道歉2025-02-28 10:13:49

GPT4.5號稱擅長騙其他AI打錢 情商更高更會“說服”

GPT4,5號稱擅長騙其他AI打錢2025-02-28 10:01:05

普京:俄羅斯與美國準(zhǔn)備建立合作關(guān)系 克服干擾推進(jìn)對話

普京,俄羅斯與美國準(zhǔn)備建立合作關(guān)系2025-02-28 10:09:56

河北通報(bào)60余輛私家車后視鏡被毀 嫌疑人已被刑拘

河北通報(bào)60余輛私家車后視鏡被毀2025-02-28 10:11:41

“雷神”神速:僅兩小時,全年目標(biāo)完成了 定價策略奏效

雷神神速,僅兩小時,全年目標(biāo)完成了2025-02-28 10:10:17

女子丟失9000元手機(jī)2小時后失而復(fù)得

女子丟失9000元手機(jī)2小時后失而復(fù)得2025-02-28 10:15:56

女演員拍短劇失聯(lián),?警方發(fā)現(xiàn)疑似目標(biāo) 多地警方介入搜尋

女演員拍短劇失聯(lián),警方發(fā)現(xiàn)疑似目標(biāo)2025-02-28 10:18:41

美國為何有如此大的政策轉(zhuǎn)向 蘇聯(lián)解體后的考量

美國為何有如此大的政策轉(zhuǎn)向2025-02-28 08:58:48

國防部引用《哪吒 2》臺詞正告臺當(dāng)局:早晚收了你們!

國防部發(fā)言人引用哪吒2臺詞2025-02-28 08:59:26

研招網(wǎng)回應(yīng)考生偽造考研成績 虛假截圖泛濫引發(fā)關(guān)注

研招網(wǎng)回應(yīng)考生偽造考研成績2025-02-28 10:15:35

俗語“二月初一雨,,寡婦別家眠” 啥預(yù)兆 老話里的氣候警示

俗語二月初一雨,寡婦別家眠啥預(yù)兆2025-02-28 10:10:35

烏克蘭武裝部隊(duì)聯(lián)合部隊(duì)司令戈納托夫被解職 上任不到1年 任職僅8月遭免

烏克蘭武裝部隊(duì)聯(lián)合部隊(duì)司令戈納托夫被解職上任不到1年2025-02-28 10:08:24

美專家:比特幣10萬美元派對結(jié)束了 特朗普或成最后希望

美專家,比特幣10萬美元派對結(jié)束了2025-02-28 08:53:18

男子陪妻子看病,,醫(yī)生多看一眼救一命

男子陪妻子看病醫(yī)生多看一眼救一命2025-02-28 10:09:50

HWG!羅馬諾:羅克將加盟帕爾梅拉斯,,轉(zhuǎn)會費(fèi)總價3000萬歐 二轉(zhuǎn) 五年長約鎖定未來

HWG,羅馬諾,羅克將加盟帕爾梅拉斯,轉(zhuǎn)會費(fèi)總價3000萬歐二轉(zhuǎn)2025-02-28 10:17:03

相關(guān)新聞