春節(jié)期間,,DeepSeek新一代開源模型以低成本和高性能引發(fā)熱議,,在全球投資界引起廣泛關注。市場上甚至有說法稱DeepSeek僅用500萬美元就復制了OpenAI,,認為這將給整個AI基礎設施產(chǎn)業(yè)帶來重大影響,。
對此,華爾街知名投行伯恩斯坦在詳細研究DeepSeek的技術文檔后發(fā)布報告稱,,這種市場恐慌情緒明顯過度,。“500萬美元復制OpenAI”的說法是市場誤讀,。實際上,這500萬美元僅僅是基于每GPU小時2美元的租賃價格估算的V3模型訓練成本,,并未包括前期研發(fā)投入,、數(shù)據(jù)成本以及其他相關費用,。
伯恩斯坦認為,雖然DeepSeek的效率提升顯著,,但從技術角度看并非奇跡,。即便DeepSeek確實實現(xiàn)了10倍的效率提升,這也僅相當于當前AI模型每年的成本增長幅度,。目前AI計算需求遠未觸及天花板,,新增算力很可能會被不斷增長的使用需求吸收,因此對AI板塊保持樂觀,。
關于DeepSeek發(fā)布的兩大模型V3和R1,,伯恩斯坦進行了詳細分析。V3模型采用專家混合架構,,用2048塊NVIDIA H800 GPU,、約270萬GPU小時達到了可與主流大模型媲美的性能。V3模型結合了多頭潛在注意力技術和FP8混合精度訓練,,使得其在訓練時僅需同等規(guī)模開源模型約9%的算力,,便能達到甚至超越其性能。例如,,V3預訓練僅需約270萬GPU小時,,而同樣規(guī)模的開源LLaMA模型則需要約3000萬GPU小時。
MoE架構每次只激活部分參數(shù),,減少計算量,;MHLA技術降低內存占用,提升效率,;FP8混合精度訓練在保證性能的同時,,進一步提升計算效率。伯恩斯坦認為,,與業(yè)界3-7倍的常見效率提升相比,,V3模型的效率提升并非顛覆性突破。
DeepSeek的R1模型通過強化學習等創(chuàng)新技術,,顯著提升了推理能力,,使其能夠與OpenAI的o1模型相媲美。此外,,DeepSeek還采用了“模型蒸餾”策略,,利用R1模型作為“教師”,生成數(shù)據(jù)來微調更小的模型,,這些小模型在性能上可以與OpenAI的o1-mini等競爭模型相媲美,。這種策略不僅降低了成本,也為AI技術的普及提供了新的思路,。
伯恩斯坦認為,,即便DeepSeek確實實現(xiàn)了10倍的效率提升,,這也僅相當于當前AI模型每年的成本增長幅度。在“模型規(guī)模定律”不斷推動成本上升的背景下,,像MoE,、模型蒸餾、混合精度計算等創(chuàng)新對AI發(fā)展至關重要,。根據(jù)杰文斯悖論,,效率提升通常會帶來更大的需求,而非削減開支,。該行認為,,目前AI計算需求遠未觸及天花板,新增算力很可能會被不斷增長的使用需求吸收,?;谝陨戏治觯魉固箤I板塊保持樂觀,。
好消息往往來自別人家公司,。去年年初,一家名為Jane Street的量化交易機構給實習生開出了1.6萬美元(約合人民幣11萬元)的月薪,。那時,,這家公司在華爾街還未聲名鵲起
2024-11-07 09:43:11實習生月薪14w了華爾街緣何開始上調美股預期當下,美股開啟了一輪“特朗普行情”,,營商環(huán)境的改善及盈利擴張預期下,,標普500指數(shù)一度突破6000點重要心理關口。
2024-11-19 13:42:30華爾街緣何開始上調美股預期過去一周,,DeepSeek R1、字節(jié)跳動的豆包1.5 Pro以及月之暗面的Kimi k1.5模型相繼推出,,引起了全球投資者的高度關注
2025-02-01 13:18:44DeepSeek沖擊華爾街