然而,,中國(guó)AI大模型DeepSeek展示了不同的發(fā)展路徑,。DeepSeek由量化金融公司量化幻方的子公司深度求索開(kāi)發(fā),,于2024年12月推出DeepSeek-V3,,并于近期公布DeepSeek-R1,。DeepSeek-V3的完整訓(xùn)練僅需2.788M H800 GPU小時(shí),,成本為557萬(wàn)美元,,性能媲美OpenAI的GPT-4o,。著名人工智能科學(xué)家卡帕西指出,,這種級(jí)別的能力通常需要16000個(gè)GPU的集群,,而DeepSeek-V3僅使用了2048個(gè)GPU運(yùn)行兩個(gè)月,花費(fèi)600萬(wàn)美元,。
DeepSeek-R1的訓(xùn)練成本尚未公布,,但API定價(jià)顯示其每輸出一百萬(wàn)Token的價(jià)格為2.19美元,僅為GPT-o1的三十分之一,。R1在數(shù)學(xué),、編程等測(cè)試中的成績(jī)與o1相當(dāng)。這引發(fā)了一種質(zhì)疑:實(shí)現(xiàn)高性能AI大模型是否必須依賴大量算力和投資,?通過(guò)軟件架構(gòu)及算法革新可能也是提高性能的有效途徑,。
韋豪創(chuàng)芯合伙人王智表示,短期內(nèi)這起事件會(huì)利空AI算力,,但從長(zhǎng)期來(lái)看,,AI算力仍然必不可少。AI大模型的發(fā)展需要更多新的架構(gòu)和算法支持,,盡管具體形式尚不清楚,,但必然會(huì)有所突破。