最近,,國(guó)產(chǎn)開(kāi)源大模型DeepSeek V3在全球范圍內(nèi)引起了廣泛關(guān)注,。這款模型僅用557萬(wàn)美元就實(shí)現(xiàn)了其他巨頭需要數(shù)億美元才能完成的成就,令卡帕西、山姆·奧特曼等業(yè)界大佬感到震驚,。
DeepSeek由量化基金煥方量化全資創(chuàng)立。早在2019年,,煥方量化就開(kāi)始布局大模型研發(fā),,并囤積了大量計(jì)算卡。其創(chuàng)始人梁文峰具有技術(shù)背景,,出于對(duì)通用人工智能的熱情投身于大模型領(lǐng)域,。
DeepSeek V3之所以如此受歡迎,主要在于它大幅降低了訓(xùn)練成本,。該模型采用了混合專家架構(gòu),,結(jié)合MLAR和SP8混合精度訓(xùn)練方法,減少了計(jì)算量,。此外,,通過(guò)DPAD等策略提升了并行計(jì)算效率。得益于龐大的參數(shù)量和高質(zhì)量的數(shù)據(jù),再加上MTP技術(shù)的應(yīng)用,,DeepSeek V3在數(shù)學(xué)和編程能力方面表現(xiàn)出色,,超越了許多頂尖模型。
對(duì)于普通用戶來(lái)說(shuō),,使用DeepSeek非常方便,。官網(wǎng)提供了免費(fèi)且功能豐富的服務(wù),還支持API調(diào)用,,價(jià)格極其低廉,,且模型本身也是開(kāi)源的。實(shí)際測(cè)試中,,它在數(shù)學(xué)和編程題目上的表現(xiàn)良好,,但在創(chuàng)意和結(jié)構(gòu)化思維方面稍顯不足,也不支持多模態(tài)處理,,上下文長(zhǎng)度也有限制,。
DeepSeek V3的出現(xiàn)對(duì)AI行業(yè)產(chǎn)生了深遠(yuǎn)影響。它引發(fā)了行業(yè)的價(jià)格戰(zhàn),,推動(dòng)了模型價(jià)格下降,,促使企業(yè)在理論創(chuàng)新與工程精細(xì)化之間尋找平衡。同時(shí),,這一成果吸引了更多參與者加入,,加速了AI技術(shù)的普及,使得高性能AI有望成為大眾工具,。