采用MTP方法,,多token預測提高模型訓練效率,。Meta發(fā)布的論文《Better & Faster Large Language Models via Multi-token Prediction》提出了讓大模型一次性預測多個token,并依據(jù)多個token計算損失的方法,。在訓練中使用MTP技術(shù)主要會通過增加給定數(shù)據(jù)量下獲得的訓練信號密度和改變傳統(tǒng)模型的計算模式來降低模型的訓練成本,。
后訓練階段引入GRPO算法,,拋棄MCTS等傳統(tǒng)方法,優(yōu)化算力開銷,。DeepSeek團隊首次提出了GRPO的概念并將其應用于強化學習過程中,,指出應用了GRPO技術(shù)的強化學習對于強化LLMs的數(shù)學推理能力非常有效,。在訓練R1-Zero的過程中,DeepSeek團隊完全依賴于應用了GRPO技術(shù)的強化學習,。
硬件工程化創(chuàng)新方面,,隨著大模型不斷發(fā)展,,全球各團隊面臨模型參數(shù)越來越大、數(shù)據(jù)量越來越多的問題,。單臺計算設(shè)備難以獨自滿足大模型的要求,,使用多臺設(shè)備同時運算的“分布式并行”策略成為主流選擇。DeepSeek團隊在硬件工程優(yōu)化中使用了PTX代碼,,顯著提升了CUDA程序的可移植性,,便于優(yōu)化和精確控制硬件調(diào)度。
中國國產(chǎn)大模型Deepseek在硅谷引起了轟動,。從斯坦福到麻省理工,,Deepseek R1幾乎一夜之間成為美國頂尖大學研究人員的首選模型
2025-01-27 15:33:19媒體揭秘國產(chǎn)大模型DeepSeek