2023年春節(jié),,ChatGPT的出現(xiàn)點(diǎn)燃了AI行業(yè)的火種。自那之后,,每年春節(jié)都有爆火的大模型出現(xiàn),。2024年是Sora,2025年則是DeepSeek,。今年,,站在C位的是中國的深度求索。DeepSeek上線20天,日活突破2000萬,,徹底沖擊了AI行業(yè),。
實(shí)際上,相比OpenAI和其他公司動輒數(shù)億美元的訓(xùn)練成本,,DeepSeek始終走的是“花小錢,,辦大事”的路線。早在去年12月底,,DeepSeek發(fā)布的V3模型僅使用2048塊英偉達(dá)H800芯片,,耗費(fèi)約560萬美元。相比之下,,GPT-4o使用上萬塊英偉達(dá)H100芯片,,訓(xùn)練成本約1億美元。
無論是價格還是訓(xùn)練成本,,DeepSeek都追求細(xì)分和創(chuàng)新,。例如,通過一種新的MLA架構(gòu)和數(shù)據(jù)蒸餾技術(shù),,降低了顯存占用并減少了訓(xùn)練數(shù)據(jù)量,。DeepSeek R1的強(qiáng)大推理能力得益于強(qiáng)化學(xué)習(xí)方法,無需任何監(jiān)督式微調(diào),。
短短一個月內(nèi),,中國AI初創(chuàng)公司深度求索(DeepSeek)發(fā)布了兩款大模型——DeepSeek-V3和DeepSeek-R1
2025-01-26 10:34:01DeepSeek讓Meta深陷恐慌