DeepSeek正成為AI領域崛起的新星,打破了國內大模型的原有格局,。本周,,DeepSeek發(fā)布了DeepSeek-R1,并同步開源了模型權重,。DeepSeek-R1遵循MIT License,,允許用戶通過蒸餾技術借助R1訓練其他模型。
DeepSeek-R1上線了API,,對用戶開放思維鏈輸出,,設置model='deepseek-reasoner'即可調用。該模型在后訓練階段大規(guī)模使用了強化學習技術,,在僅有極少標注數(shù)據(jù)的情況下,,極大提升了模型推理能力。在數(shù)學,、代碼,、自然語言推理等任務上,性能與OpenAI o1正式版相當,。同時,,DeepSeek開源了兩個660B模型,并通過DeepSeek-R1的輸出蒸餾出六個小模型,,其中32B和70B模型在多項能力上實現(xiàn)了對標OpenAI o1-mini的效果,。
DeepSeek-R1 API服務定價為每百萬輸入tokens 1元(緩存命中)/4元(緩存未命中),每百萬輸出tokens 16元,。DeepSeek在美國科技界引起震動,,不僅因為其性能與OpenAI的o1相當且完全開源,還以極低成本實現(xiàn)了這一突破,。知名投資人馬克·安德森表示,,DeepSeek R1是他見過最令人驚嘆和印象深刻的突破之一,作為開源項目,,這是給世界的一份重要禮物,。
Scale AI創(chuàng)始人亞歷山大·王認為,過去十年美國可能一直在人工智能競賽中領先于中國,,但DeepSeek的發(fā)布可能會改變這一局面,。DeepSeek-R1與GPT-4o和Claude 3.5 Sonnet相當,訓練時計算量減少10倍,。這表明在美國人休息時,,中國人在工作,并以更便宜、更快,、更強的產(chǎn)品迎頭趕上,。
DeepSeek的動作讓Meta的生成式AI團隊感到恐慌。Meta CEO扎克伯格宣布加速研發(fā)Llama 4,,計劃投資650億美元擴建數(shù)據(jù)中心,,并部署130萬枚GPU,以確保2025年Meta AI成為全球領先模型,。
DeepSeek創(chuàng)始人梁文鋒迅速在AI圈內確立地位,。梁文鋒本碩均就讀于浙江大學信息與電子工程學專業(yè)。2015年,,他與校友共同創(chuàng)立幻方量化,。2021年,幻方量化成為國內首家突破千億規(guī)模的量化私募大廠,,被稱為國內量化私募“四大天王”之一,。早年,幻方量化開始大規(guī)模布局AI算力,,搭建起“螢火一號”集群。2021年,,“螢火二號”落成,,為DeepSeek提供了快速發(fā)展的基礎。
DeepSeek團隊在預訓練方面貢獻巨大,,包括超強的訓練穩(wěn)定度,、深入使用fb8混合精度、多詞同時預測,、隱空間多注意力頭,、MOE混合專家等,大大降低了訓練成本,。他們僅用600萬美元就訓練出了一個600B的大模型,,被視作工程上的奇跡。
分析人士指出,,DeepSeek用較低的成本訓練出比肩OpenAI o1水平的模型R1,,而且R1還開源,這意味著算法有很大的提升空間,,不需要那么多GPU和算力,。封鎖芯片和搞算力壁壘的思路行不通,而依賴大量GPU堆砌效果的模式也受到挑戰(zhàn),。DeepSeek的出現(xiàn)可能導致許多購買了數(shù)千塊NVIDIA芯片的AI初創(chuàng)公司破產(chǎn),,從而導致大量NVIDIA GPU流入二手市場。此外,,一些運營數(shù)據(jù)中心并出租NVIDIA GPU的初創(chuàng)公司也可能受到影響,。
這可能刺激更多專用推理模型誕生,,創(chuàng)業(yè)公司和個人App可能會大幅減少在OpenAI API上的支出,轉向開源,。評論人士稱,,DeepSeek整合搜索信息的能力強于某些現(xiàn)有模型,讓人對英偉達股價產(chǎn)生懷疑,。中美科技底層差距雖然大,,但中國擁有巨大的人才紅利,有超過6000萬工程師,,超過美德日韓印總和,,這是繼續(xù)發(fā)展的底氣和希望。
消息人士稱,,索尼早在數(shù)年前便啟動了下一代游戲主機PS6的芯片招標程序,,博通等公司被淘汰后,英特爾與AMD是最后兩位入圍決賽圈的選手,。
2024-09-18 13:43:03AMD擊敗Intel獲PS6芯片合同