AMD火速“站臺”DeepSeek AI新星震撼科技界

小大

用微信掃描二維碼
分享至好友和朋友圈

關鍵詞：

2025-01-26 21:17:04 雷遞

DeepSeek正成為AI領域崛起的新星，打破了國內大模型的原有格局,。本周,，DeepSeek發(fā)布了DeepSeek-R1，并同步開源了模型權重,。DeepSeek-R1遵循MIT License,，允許用戶通過蒸餾技術借助R1訓練其他模型。

DeepSeek-R1上線了API,，對用戶開放思維鏈輸出,，設置model='deepseek-reasoner'即可調用。該模型在后訓練階段大規(guī)模使用了強化學習技術,，在僅有極少標注數(shù)據(jù)的情況下,，極大提升了模型推理能力。在數(shù)學,、代碼,、自然語言推理等任務上，性能與OpenAI o1正式版相當,。同時,，DeepSeek開源了兩個660B模型，并通過DeepSeek-R1的輸出蒸餾出六個小模型,，其中32B和70B模型在多項能力上實現(xiàn)了對標OpenAI o1-mini的效果,。

DeepSeek-R1 API服務定價為每百萬輸入tokens 1元（緩存命中）/4元（緩存未命中），每百萬輸出tokens 16元,。DeepSeek在美國科技界引起震動,，不僅因為其性能與OpenAI的o1相當且完全開源，還以極低成本實現(xiàn)了這一突破,。知名投資人馬克·安德森表示,，DeepSeek R1是他見過最令人驚嘆和印象深刻的突破之一，作為開源項目,，這是給世界的一份重要禮物,。

Scale AI創(chuàng)始人亞歷山大·王認為，過去十年美國可能一直在人工智能競賽中領先于中國,，但DeepSeek的發(fā)布可能會改變這一局面,。DeepSeek-R1與GPT-4o和Claude 3.5 Sonnet相當，訓練時計算量減少10倍,。這表明在美國人休息時,，中國人在工作，并以更便宜、更快,、更強的產(chǎn)品迎頭趕上,。

DeepSeek的動作讓Meta的生成式AI團隊感到恐慌。Meta CEO扎克伯格宣布加速研發(fā)Llama 4,，計劃投資650億美元擴建數(shù)據(jù)中心,，并部署130萬枚GPU，以確保2025年Meta AI成為全球領先模型,。

DeepSeek創(chuàng)始人梁文鋒迅速在AI圈內確立地位,。梁文鋒本碩均就讀于浙江大學信息與電子工程學專業(yè)。2015年,，他與校友共同創(chuàng)立幻方量化,。2021年，幻方量化成為國內首家突破千億規(guī)模的量化私募大廠,，被稱為國內量化私募“四大天王”之一,。早年，幻方量化開始大規(guī)模布局AI算力,，搭建起“螢火一號”集群。2021年,，“螢火二號”落成,，為DeepSeek提供了快速發(fā)展的基礎。

DeepSeek團隊在預訓練方面貢獻巨大,，包括超強的訓練穩(wěn)定度,、深入使用fb8混合精度、多詞同時預測,、隱空間多注意力頭,、MOE混合專家等，大大降低了訓練成本,。他們僅用600萬美元就訓練出了一個600B的大模型,，被視作工程上的奇跡。

分析人士指出,，DeepSeek用較低的成本訓練出比肩OpenAI o1水平的模型R1,，而且R1還開源，這意味著算法有很大的提升空間,，不需要那么多GPU和算力,。封鎖芯片和搞算力壁壘的思路行不通，而依賴大量GPU堆砌效果的模式也受到挑戰(zhàn),。DeepSeek的出現(xiàn)可能導致許多購買了數(shù)千塊NVIDIA芯片的AI初創(chuàng)公司破產(chǎn),，從而導致大量NVIDIA GPU流入二手市場。此外,，一些運營數(shù)據(jù)中心并出租NVIDIA GPU的初創(chuàng)公司也可能受到影響,。

這可能刺激更多專用推理模型誕生,，創(chuàng)業(yè)公司和個人App可能會大幅減少在OpenAI API上的支出，轉向開源,。評論人士稱,，DeepSeek整合搜索信息的能力強于某些現(xiàn)有模型，讓人對英偉達股價產(chǎn)生懷疑,。中美科技底層差距雖然大,，但中國擁有巨大的人才紅利，有超過6000萬工程師,，超過美德日韓印總和,，這是繼續(xù)發(fā)展的底氣和希望。

(責任編輯：張蕾)

關閉

AMD火速“站臺”DeepSeek AI新星震撼科技界

相關新聞

今日熱點

頻道熱點