春節(jié)期間,DeepSeek新一代開源模型以低成本和高性能引發(fā)熱議,,在全球投資界引起廣泛關(guān)注,。市場上甚至有說法稱DeepSeek僅用500萬美元就復(fù)制了OpenAI,認(rèn)為這將給整個(gè)AI基礎(chǔ)設(shè)施產(chǎn)業(yè)帶來重大影響,。
對此,,華爾街知名投行伯恩斯坦在詳細(xì)研究DeepSeek的技術(shù)文檔后發(fā)布報(bào)告稱,這種市場恐慌情緒明顯過度,?!?00萬美元復(fù)制OpenAI”的說法是市場誤讀。實(shí)際上,,這500萬美元僅僅是基于每GPU小時(shí)2美元的租賃價(jià)格估算的V3模型訓(xùn)練成本,,并未包括前期研發(fā)投入、數(shù)據(jù)成本以及其他相關(guān)費(fèi)用,。
伯恩斯坦認(rèn)為,,雖然DeepSeek的效率提升顯著,,但從技術(shù)角度看并非奇跡。即便DeepSeek確實(shí)實(shí)現(xiàn)了10倍的效率提升,,這也僅相當(dāng)于當(dāng)前AI模型每年的成本增長幅度,。目前AI計(jì)算需求遠(yuǎn)未觸及天花板,新增算力很可能會(huì)被不斷增長的使用需求吸收,,因此對AI板塊保持樂觀,。
關(guān)于DeepSeek發(fā)布的兩大模型V3和R1,伯恩斯坦進(jìn)行了詳細(xì)分析,。V3模型采用專家混合架構(gòu),,用2048塊NVIDIA H800 GPU、約270萬GPU小時(shí)達(dá)到了可與主流大模型媲美的性能,。V3模型結(jié)合了多頭潛在注意力技術(shù)和FP8混合精度訓(xùn)練,,使得其在訓(xùn)練時(shí)僅需同等規(guī)模開源模型約9%的算力,便能達(dá)到甚至超越其性能,。例如,,V3預(yù)訓(xùn)練僅需約270萬GPU小時(shí),,而同樣規(guī)模的開源LLaMA模型則需要約3000萬GPU小時(shí),。
MoE架構(gòu)每次只激活部分參數(shù),減少計(jì)算量,;MHLA技術(shù)降低內(nèi)存占用,,提升效率;FP8混合精度訓(xùn)練在保證性能的同時(shí),,進(jìn)一步提升計(jì)算效率,。伯恩斯坦認(rèn)為,與業(yè)界3-7倍的常見效率提升相比,,V3模型的效率提升并非顛覆性突破,。