中國工程院院士與DeepSeek過了一招 AI發(fā)展路徑新思考

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-03-03 09:44:52 上觀

近日,，DeepSeek的出現(xiàn)引發(fā)了全球科技領(lǐng)域的廣泛關(guān)注和深入討論,。中國科協(xié)會刊《科技導(dǎo)報》2025年第3期刊發(fā)了中國計算機學(xué)會原理事長李國杰院士的文章《DeepSeek引發(fā)的AI發(fā)展路徑思考》，探討了DeepSeek背后所蘊含的AI發(fā)展路徑問題,。

李國杰是中國工程院院士、發(fā)展中國家科學(xué)院（TWAS）院士，研究方向涵蓋計算機體系結(jié)構(gòu),、并行算法、人工智能等多個領(lǐng)域,。

DeepSeek的橫空出世是人工智能發(fā)展史上的標(biāo)志性事件,。短短7天內(nèi)，用戶增長超過1億,，打破了用戶增長速度的世界紀(jì)錄,。與此同時，英偉達股價單日暴跌17%,，市值縮水5890億美元,，創(chuàng)下美國上市公司單日最大損失紀(jì)錄。這表明,，高算力和高投入不再是發(fā)展人工智能的唯一途徑,，集成電路制程優(yōu)勢也不再等于人工智能技術(shù)霸權(quán)。DeepSeek引領(lǐng)行業(yè)進入以算法和模型架構(gòu)優(yōu)化為主的新時期,，同時高度重視數(shù)據(jù)質(zhì)量和規(guī)模,，并理性提高算力。此外,，DeepSeek標(biāo)志著中國科技公司從“追趕者”變?yōu)椤耙?guī)則改寫者”,，在全球人工智能領(lǐng)域展現(xiàn)出顛覆性創(chuàng)新。

全球人工智能龍頭企業(yè)紛紛擁抱DeepSeek,，微軟最早宣布將其R1模型添加到Azure AI Foundry,，亞馬遜云科技（AWS）、英偉達,、超威半導(dǎo)體（AMD）等也相繼部署DeepSeek V3和R1模型,。上億用戶和眾多大公司根據(jù)性價比和親身體驗主動融入DeepSeek生態(tài)。DeepSeek推出的高效率,、低成本推理模型和開源商業(yè)模式,，引領(lǐng)了人工智能行業(yè)新潮流,。

V3和R1模型受歡迎的原因在于其在模型算法和系統(tǒng)軟件層次的重大創(chuàng)新。V3模型參數(shù)量高達6710億,，但采用混合專家模型（MoE）架構(gòu)后,，每次調(diào)用僅激活約370億個參數(shù)，顯著降低了訓(xùn)練計算成本,。改進的多頭潛在注意力機制（MLA）減少了鍵值緩存開銷,，將顯存占用降至其他大模型的5%~13%，提升了運行效率,。R1模型摒棄傳統(tǒng)監(jiān)督微調(diào)（SFT）,，提出群組相對策略優(yōu)化（GRPO），通過強化學(xué)習(xí)激發(fā)推理能力,，簡化了訓(xùn)練流程,。這些發(fā)明雖非首次提出，但DeepSeek通過努力將技術(shù)做到極致,，在前人成果基礎(chǔ)上登上新的技術(shù)高峰,。

12 3 4 全文共 4 頁下一頁

關(guān)閉

中國工程院院士與DeepSeek過了一招 AI發(fā)展路徑新思考

相關(guān)新聞

今日熱點

頻道熱點