DeepSeek正成為AI領(lǐng)域崛起的新星,,打破了國內(nèi)大模型的原有格局,。本周,,DeepSeek發(fā)布了DeepSeek-R1,,并同步開源了模型權(quán)重,。DeepSeek-R1遵循MIT License,允許用戶通過蒸餾技術(shù)借助R1訓(xùn)練其他模型,。
DeepSeek-R1上線了API,,對(duì)用戶開放思維鏈輸出,設(shè)置model='deepseek-reasoner'即可調(diào)用,。該模型在后訓(xùn)練階段大規(guī)模使用了強(qiáng)化學(xué)習(xí)技術(shù),,在僅有極少標(biāo)注數(shù)據(jù)的情況下,極大提升了模型推理能力,。在數(shù)學(xué),、代碼、自然語言推理等任務(wù)上,,性能與OpenAI o1正式版相當(dāng),。同時(shí),DeepSeek開源了兩個(gè)660B模型,,并通過DeepSeek-R1的輸出蒸餾出六個(gè)小模型,,其中32B和70B模型在多項(xiàng)能力上實(shí)現(xiàn)了對(duì)標(biāo)OpenAI o1-mini的效果。
DeepSeek-R1 API服務(wù)定價(jià)為每百萬輸入tokens 1元(緩存命中)/4元(緩存未命中),,每百萬輸出tokens 16元,。DeepSeek在美國科技界引起震動(dòng),不僅因?yàn)槠湫阅芘cOpenAI的o1相當(dāng)且完全開源,,還以極低成本實(shí)現(xiàn)了這一突破,。知名投資人馬克·安德森表示,DeepSeek R1是他見過最令人驚嘆和印象深刻的突破之一,,作為開源項(xiàng)目,,這是給世界的一份重要禮物。
Scale AI創(chuàng)始人亞歷山大·王認(rèn)為,,過去十年美國可能一直在人工智能競賽中領(lǐng)先于中國,,但DeepSeek的發(fā)布可能會(huì)改變這一局面。DeepSeek-R1與GPT-4o和Claude 3.5 Sonnet相當(dāng),,訓(xùn)練時(shí)計(jì)算量減少10倍,。這表明在美國人休息時(shí),中國人在工作,,并以更便宜,、更快、更強(qiáng)的產(chǎn)品迎頭趕上,。
DeepSeek的動(dòng)作讓Meta的生成式AI團(tuán)隊(duì)感到恐慌,。Meta CEO扎克伯格宣布加速研發(fā)Llama 4,計(jì)劃投資650億美元擴(kuò)建數(shù)據(jù)中心,,并部署130萬枚GPU,,以確保2025年Meta AI成為全球領(lǐng)先模型。
DeepSeek創(chuàng)始人梁文鋒迅速在AI圈內(nèi)確立地位。梁文鋒本碩均就讀于浙江大學(xué)信息與電子工程學(xué)專業(yè),。2015年,,他與校友共同創(chuàng)立幻方量化。2021年,,幻方量化成為國內(nèi)首家突破千億規(guī)模的量化私募大廠,,被稱為國內(nèi)量化私募“四大天王”之一。早年,,幻方量化開始大規(guī)模布局AI算力,,搭建起“螢火一號(hào)”集群。2021年,,“螢火二號(hào)”落成,,為DeepSeek提供了快速發(fā)展的基礎(chǔ)。
DeepSeek團(tuán)隊(duì)在預(yù)訓(xùn)練方面貢獻(xiàn)巨大,,包括超強(qiáng)的訓(xùn)練穩(wěn)定度,、深入使用fb8混合精度、多詞同時(shí)預(yù)測,、隱空間多注意力頭,、MOE混合專家等,大大降低了訓(xùn)練成本,。他們僅用600萬美元就訓(xùn)練出了一個(gè)600B的大模型,,被視作工程上的奇跡。
分析人士指出,,DeepSeek用較低的成本訓(xùn)練出比肩OpenAI o1水平的模型R1,,而且R1還開源,這意味著算法有很大的提升空間,,不需要那么多GPU和算力,。封鎖芯片和搞算力壁壘的思路行不通,而依賴大量GPU堆砌效果的模式也受到挑戰(zhàn),。DeepSeek的出現(xiàn)可能導(dǎo)致許多購買了數(shù)千塊NVIDIA芯片的AI初創(chuàng)公司破產(chǎn),,從而導(dǎo)致大量NVIDIA GPU流入二手市場。此外,,一些運(yùn)營數(shù)據(jù)中心并出租NVIDIA GPU的初創(chuàng)公司也可能受到影響,。
這可能刺激更多專用推理模型誕生,創(chuàng)業(yè)公司和個(gè)人App可能會(huì)大幅減少在OpenAI API上的支出,,轉(zhuǎn)向開源,。評(píng)論人士稱,DeepSeek整合搜索信息的能力強(qiáng)于某些現(xiàn)有模型,,讓人對(duì)英偉達(dá)股價(jià)產(chǎn)生懷疑。中美科技底層差距雖然大,,但中國擁有巨大的人才紅利,,有超過6000萬工程師,,超過美德日韓印總和,這是繼續(xù)發(fā)展的底氣和希望,。
短短一個(gè)月內(nèi),,中國AI初創(chuàng)公司深度求索(DeepSeek)發(fā)布了兩款大模型:DeepSeek-V3和DeepSeek-R1
2025-01-26 15:51:02DeepSeek新模型火到海外短短一個(gè)月內(nèi),中國AI初創(chuàng)公司深度求索(DeepSeek)發(fā)布了兩款大模型——DeepSeek-V3和DeepSeek-R1
2025-01-26 10:34:01DeepSeek讓Meta深陷恐慌