最近,,國產(chǎn)開源大模型DeepSeek V3在全球范圍內(nèi)引起了廣泛關(guān)注,。這款模型僅用557萬美元就實現(xiàn)了其他巨頭需要數(shù)億美元才能完成的成就,,令卡帕西,、山姆·奧特曼等業(yè)界大佬感到震驚,。
DeepSeek由量化基金煥方量化全資創(chuàng)立。早在2019年,,煥方量化就開始布局大模型研發(fā),,并囤積了大量計算卡,。其創(chuàng)始人梁文峰具有技術(shù)背景,出于對通用人工智能的熱情投身于大模型領(lǐng)域,。
DeepSeek V3之所以如此受歡迎,,主要在于它大幅降低了訓(xùn)練成本。該模型采用了混合專家架構(gòu),,結(jié)合MLAR和SP8混合精度訓(xùn)練方法,,減少了計算量。此外,,通過DPAD等策略提升了并行計算效率,。得益于龐大的參數(shù)量和高質(zhì)量的數(shù)據(jù),再加上MTP技術(shù)的應(yīng)用,,DeepSeek V3在數(shù)學(xué)和編程能力方面表現(xiàn)出色,,超越了許多頂尖模型。
對于普通用戶來說,,使用DeepSeek非常方便,。官網(wǎng)提供了免費且功能豐富的服務(wù),還支持API調(diào)用,,價格極其低廉,,且模型本身也是開源的。實際測試中,,它在數(shù)學(xué)和編程題目上的表現(xiàn)良好,,但在創(chuàng)意和結(jié)構(gòu)化思維方面稍顯不足,也不支持多模態(tài)處理,,上下文長度也有限制,。
DeepSeek V3的出現(xiàn)對AI行業(yè)產(chǎn)生了深遠(yuǎn)影響。它引發(fā)了行業(yè)的價格戰(zhàn),,推動了模型價格下降,,促使企業(yè)在理論創(chuàng)新與工程精細(xì)化之間尋找平衡。同時,,這一成果吸引了更多參與者加入,,加速了AI技術(shù)的普及,使得高性能AI有望成為大眾工具,。