顯卡可能沒那么重要了!我是萬萬沒想到,,就在西方還沉浸在圣誕假期,,瘋狂“過年”的時(shí)候,咱們中國企業(yè)給人家放了個(gè)新年二踢腳,,給人家腦瓜子崩得嗡嗡得。
前有宇樹科技的機(jī)器狗視頻讓大家驚呼,還要啥波士頓動(dòng)力,。
緊接著又來了個(gè)
國產(chǎn)大模型DeepSeek,甚至有股做空英偉達(dá)的味道,。具體咋回事兒,,咱給你嘮明白咯。前幾天,,DeepSeek剛剛公布最新版本V3,,注意,與大洋彼岸那個(gè)自稱Open,,卻越來越Close的公司產(chǎn)品不同,,這個(gè)V3是開源的。
不過開源還不是他最重要的標(biāo)簽,,DeepSeek-V3
(以下簡稱V3)
還兼具了性能國際一流,,技術(shù)力牛逼,價(jià)格擊穿地心三個(gè)特點(diǎn),,這一套不解釋連招打得業(yè)內(nèi)大模型廠商們都有點(diǎn)暈頭轉(zhuǎn)向了,。
V3一發(fā)布,OpenAI創(chuàng)始成員Karpathy直接看嗨了,,甚至發(fā)出了靈魂提問,,
難道說大模型們壓根不需要大規(guī)模顯卡集群,?
我估計(jì)老黃看到這頭皮都得發(fā)麻了吧。
同時(shí),,Meta的AI技術(shù)官也是直呼
DeepSeek的成果偉大
,。
知名 AI 評測博主 Tim Dettmers ,直接吹起來了,,表示 DeepSeek 的處理優(yōu)雅 “elegant” ,。
而在這些技術(shù)出身的人,看著V3的成績送去贊揚(yáng)的時(shí)候,,也有些人急了,。
比如奧特曼就擱那說,
復(fù)制比較簡單啦
,,很難不讓人覺得他在內(nèi)涵DeepSeek,。
更有意思的是,做到這些的公司既不是什么大廠,,也不是純血AI廠商,。
DeepSeek公司中文名叫深度求索,他們本來和AI沒任何關(guān)系,。
就在大模型爆火之前,,他們
其實(shí)是私募機(jī)構(gòu)幻方量化的一個(gè)團(tuán)隊(duì)
。
而深度求索能夠?qū)崿F(xiàn)彎道超車,,既有點(diǎn)必然,,也好像有點(diǎn)運(yùn)氣的意思。
早在2019年,,幻方就投資2億元搭建了自研深度學(xué)習(xí)訓(xùn)練平臺“螢火蟲一號”,,到了2021年已經(jīng)買了足足1萬張英偉達(dá)A100顯卡的算力儲備了。
要知道,,這個(gè)時(shí)候大模型沒火,萬卡集群的概念更是還沒出現(xiàn),。
而正是憑借這部分硬件儲備,,幻方才拿到了AI大模型的入場券,最終卷出了現(xiàn)在的V3,。
你說好好的一個(gè)量化投資領(lǐng)域的大廠,,干嘛要跑來搞AI呢?
深度求索的CEO梁文鋒在接受暗涌采訪的時(shí)候給大家聊過,,并不是什么看中AI前景,。
而是在他們看來,“
通用人工智能可能是下一個(gè)最難的事之一
”,,對他們來說,,“這是一個(gè)怎么做的問題,,而不是為什么做的問題?!?/p>
就是抱著這么股“莽”勁,,深度求索才搞出了這次的大新聞,下面給大家具體講講V3有啥特別的地方,。
首先就是性能強(qiáng)悍,,目前來看,在V3面前,,開源模型幾乎沒一個(gè)能打的,。
還記得去年年中,小扎的 Meta 推出模型 Llama 3.1 ,,當(dāng)時(shí)就因?yàn)樾阅軆?yōu)秀而且開源,,一時(shí)間被捧上神壇,結(jié)果在 V3 手里,,基本
是全面落敗
,。
而在各種大廠手里的閉源模型,那些大家耳熟能詳?shù)氖裁?GPT-4o ,、 Claude 3.5 Sonnet 啥的,, V3 也能打得有來有回。
你看到這,,可能覺得不過如此,,也就是追上了國際領(lǐng)先水平嘛,值得這么吹嗎,?
殘暴的還在后面,。
大家大概都知道了,現(xiàn)在的大模型就是一個(gè)通過大量算力,,讓模型吃各種數(shù)據(jù)的煉丹過程,。
在這個(gè)煉丹期,需要的是大量算力和時(shí)間往里砸,。
所以在圈子里有了一個(gè)新的計(jì)量單位“GPU時(shí)”,,也就是用了多少塊GPU花了多少個(gè)小時(shí)的訓(xùn)練時(shí)間。
GPU時(shí)越高,,意味著花費(fèi)的時(shí)間,、金錢成本就越高,反之就物美價(jià)廉了,。
前面說的此前開源模型王者,, Llama 3.1 405B ,訓(xùn)練周期花費(fèi)了 3080 萬 GPU 時(shí)。
可性能更強(qiáng)的V3,,
只花了不到280萬GPU時(shí)
,。
以錢來換算,DeepSeek搞出V3版本,,大概只花了4000多萬人民幣,。
而 Llama 3.1 405B 的訓(xùn)練期間, Meta 光是在老黃那買了 16000 多個(gè) GPU ,,保守估計(jì)至少都花了十幾億人民幣,。
至于另外的那幾家閉源模型,動(dòng)輒都是幾十億上百億大撒幣的,。
你別以為DeepSeek靠的是什么歪門邪道,,人家是正兒八經(jīng)的有技術(shù)傍身的。
為了搞清楚DeepSeek的技術(shù)咋樣,,咱們特地聯(lián)系了語核科技創(chuàng)始人兼CTO池光耀,,他們主力發(fā)展企業(yè)向的agent數(shù)字員工,早就是DeepSeek的鐵粉了,。
池光耀告訴我們,,這次V3的更新主要是3個(gè)方面的優(yōu)化,分別是
通信和顯存優(yōu)化
,、
推理專家的負(fù)載均衡
以及
FP8混合精度訓(xùn)練
,。
各個(gè)部分怎么實(shí)現(xiàn)的咱也就不多說了,總體來說,,大的整體結(jié)構(gòu)沒啥變化,,更多的像是咱們搞基建的那一套傳統(tǒng)藝能,把工程做得更高效,、更合理了,。
首先,V3通過通信和顯存優(yōu)化,,極大幅度
減少了資源空閑率
,,提升了利用效率,。
而推理專家
(具備推理能力的AI系統(tǒng)或算法,,能夠通過數(shù)據(jù)分析得出結(jié)論)
的負(fù)載均衡就更巧妙了,一般的大模型,,每次啟動(dòng),,必須把所有專家都等比例放進(jìn)工位
(顯存)
,,但真正回答用戶問題時(shí),,十幾個(gè)專家里面只用到一兩個(gè),剩下的專家占著工位
(顯存)
摸魚,也干不了別的事情,。
而DeepSeek把專家分成熱門和冷門兩種,,
熱門的專家,復(fù)制一份放進(jìn)顯存,,處理熱門問題,;冷門的專家也不摸魚,總是能被分配到問題
,。
FP8混合精度訓(xùn)練則是在之前被很多團(tuán)隊(duì)嘗試無果的方向上拓展了新的一步,,通過降低訓(xùn)練精度以降低訓(xùn)練時(shí)算力開銷,但卻神奇地保持了回答質(zhì)量基本不變,。
也正是這些技術(shù)上的革新,,才得到了大模型圈的一致好評。
通過一直以來的技術(shù)更新迭代,,DeepSeek收獲的回報(bào)也是相當(dāng)驚人的,。
他們V3版本推出后,他們的價(jià)格已經(jīng)是
低到百萬tokens幾毛錢,、幾塊錢
,。
他們甚至還在搞了個(gè)新品促銷活動(dòng),到明年2月8號之前,,在原來低價(jià)的基礎(chǔ)上再打折,。
而一開始提到同樣開源的 Claude 3.5 Sonnet ,每百萬tokens,,至少都得要幾十塊以上,。。,。
更要命的是,,這對DeepSeek來說已經(jīng)是常規(guī)套路了。
早在去年初,,
DeepSeek V2 模型發(fā)布后,,就靠著一手低價(jià),被大家叫做了AI 界拼多多,。
他們還進(jìn)一步
引發(fā)了國內(nèi)大模型公司的價(jià)格戰(zhàn),,
諸如智譜、字節(jié),、阿里,、百度、騰訊等大廠紛紛降價(jià),。
池光耀也告訴我們,,他們公司早在去年6,、7月份就開始用上了DeepSeek,當(dāng)時(shí)也有國內(nèi)其他一些大模型廠商來找過他們,。
但和DeepSeek價(jià)格差不多的,,模型
“又太笨了
,
跟DeepSeek不在一個(gè)維度
”,;如果模型能力和DeepSeek差不多,,那個(gè)價(jià)格“
基本都是10倍以上
”。
更夸張的是,,由于技術(shù)“遙遙領(lǐng)先”帶來的降本增效,,哪怕DeepSeek賣得這么便宜,根據(jù)他們創(chuàng)始人梁文峰所說,,
他們公司還是賺錢的
,。。,。是不是有種隔壁比亞迪搞998,,照樣財(cái)報(bào)飄紅的味道了。
不過對于我們普通用戶來說,,DeepSeek似乎也有點(diǎn)偏門了,。
因?yàn)樗膹?qiáng)項(xiàng)主要是在推理、數(shù)學(xué),、代碼方向,,而多模態(tài)和一些娛樂化的領(lǐng)域不是他們的長處。
而且眼下,,盡管DeepSeek說自己還是賺錢的,,但他們團(tuán)隊(duì)上上下下都有股極客味,所以他們的商業(yè)化比起其他廠商就有點(diǎn)弱了,。
但不管怎么說,,DeepSeek的成功也證明了,在AI這個(gè)賽道還存在的更多的可能,。
按以前的理解,,想玩轉(zhuǎn)AI后面沒有個(gè)金主爸爸砸錢買顯卡,壓根就玩不轉(zhuǎn),。
但現(xiàn)在看起來,,掌握了算力并不一定就是掌握了一切。
我們不妨期待下未來,,更多的優(yōu)化出現(xiàn),,讓更多的小公司、初創(chuàng)企業(yè)都能進(jìn)入AI領(lǐng)域,,差評君總感覺,,那才是真正的AI浪潮才對,。
00后女孩謙謙在云南普洱太陽河森林公園工作,她在網(wǎng)上發(fā)布了與白眉長臂猿的日?;?dòng),,引發(fā)眾多網(wǎng)友點(diǎn)贊。
2024-07-12 10:39:07女生在森林公園上班工作是巡山英偉達(dá)在GPU市場的主導(dǎo)地位持續(xù)增強(qiáng),,人們期望AMD和Intel能展現(xiàn)出更強(qiáng)的競爭力
2024-12-13 15:38:56英偉達(dá)全球GPU市場占比90%