近日,,DeepSeek的出現(xiàn)引發(fā)了全球科技領(lǐng)域的廣泛關(guān)注和深入討論,。中國(guó)科協(xié)會(huì)刊《科技導(dǎo)報(bào)》2025年第3期刊發(fā)了中國(guó)計(jì)算機(jī)學(xué)會(huì)原理事長(zhǎng)李國(guó)杰院士的文章《DeepSeek引發(fā)的AI發(fā)展路徑思考》,探討了DeepSeek背后所蘊(yùn)含的AI發(fā)展路徑問(wèn)題。
李國(guó)杰是中國(guó)工程院院士,、發(fā)展中國(guó)家科學(xué)院(TWAS)院士,研究方向涵蓋計(jì)算機(jī)體系結(jié)構(gòu)、并行算法、人工智能等多個(gè)領(lǐng)域,。
DeepSeek的橫空出世是人工智能發(fā)展史上的標(biāo)志性事件。短短7天內(nèi),,用戶增長(zhǎng)超過(guò)1億,,打破了用戶增長(zhǎng)速度的世界紀(jì)錄。與此同時(shí),,英偉達(dá)股價(jià)單日暴跌17%,,市值縮水5890億美元,創(chuàng)下美國(guó)上市公司單日最大損失紀(jì)錄,。這表明,,高算力和高投入不再是發(fā)展人工智能的唯一途徑,集成電路制程優(yōu)勢(shì)也不再等于人工智能技術(shù)霸權(quán),。DeepSeek引領(lǐng)行業(yè)進(jìn)入以算法和模型架構(gòu)優(yōu)化為主的新時(shí)期,同時(shí)高度重視數(shù)據(jù)質(zhì)量和規(guī)模,,并理性提高算力,。此外,DeepSeek標(biāo)志著中國(guó)科技公司從“追趕者”變?yōu)椤耙?guī)則改寫(xiě)者”,,在全球人工智能領(lǐng)域展現(xiàn)出顛覆性創(chuàng)新,。
全球人工智能龍頭企業(yè)紛紛擁抱DeepSeek,,微軟最早宣布將其R1模型添加到Azure AI Foundry,亞馬遜云科技(AWS),、英偉達(dá),、超威半導(dǎo)體(AMD)等也相繼部署DeepSeek V3和R1模型。上億用戶和眾多大公司根據(jù)性價(jià)比和親身體驗(yàn)主動(dòng)融入DeepSeek生態(tài),。DeepSeek推出的高效率,、低成本推理模型和開(kāi)源商業(yè)模式,引領(lǐng)了人工智能行業(yè)新潮流,。
V3和R1模型受歡迎的原因在于其在模型算法和系統(tǒng)軟件層次的重大創(chuàng)新,。V3模型參數(shù)量高達(dá)6710億,但采用混合專家模型(MoE)架構(gòu)后,,每次調(diào)用僅激活約370億個(gè)參數(shù),,顯著降低了訓(xùn)練計(jì)算成本。改進(jìn)的多頭潛在注意力機(jī)制(MLA)減少了鍵值緩存開(kāi)銷,,將顯存占用降至其他大模型的5%~13%,,提升了運(yùn)行效率。R1模型摒棄傳統(tǒng)監(jiān)督微調(diào)(SFT),,提出群組相對(duì)策略優(yōu)化(GRPO),,通過(guò)強(qiáng)化學(xué)習(xí)激發(fā)推理能力,簡(jiǎn)化了訓(xùn)練流程,。這些發(fā)明雖非首次提出,,但DeepSeek通過(guò)努力將技術(shù)做到極致,在前人成果基礎(chǔ)上登上新的技術(shù)高峰,。
人工智能(AI)大模型DeepSeek點(diǎn)燃的AI熱潮,,正在引發(fā)全球資本流向中國(guó)。
2025-02-17 10:11:09DeepSeek推動(dòng)中國(guó)股票價(jià)值增1.3萬(wàn)億美元