2019年,,幻方量化前瞻性地大規(guī)模布局AI算力,,自主研發(fā)“螢火一號(hào)”訓(xùn)練平臺(tái),投資近2億元,配備1100塊GPU,。2021年,投資加碼到10億元的“螢火二號(hào)”投入使用,,搭載約1萬(wàn)張英偉達(dá)A100顯卡,。憑借這些前期準(zhǔn)備,恰逢2023年AI大模型迎來爆發(fā)之年,,梁文鋒宣布正式進(jìn)軍通用人工智能領(lǐng)域,,創(chuàng)辦杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司,即DeepSeek,。
DeepSeek采用差異化的技術(shù)路線,,開發(fā)了新型MLA(多頭潛在注意力機(jī)制)和MoE架構(gòu),大幅降低顯存占用和推理成本,。2024年12月26日,,DeepSeek發(fā)布V3模型,使用2048顆H800 GPU,,訓(xùn)練成本僅557.6萬(wàn)美元,,性能卻超越多個(gè)開源模型,被硅谷稱為“來自東方的神秘力量”,。
2025年1月20日,,DeepSeek發(fā)布R1模型,部分性能可以追趕上當(dāng)時(shí)最先進(jìn)的大模型之一OpenAI o1模型,,而且完全開源,。7天內(nèi)用戶增長(zhǎng)至1億,登頂中國(guó)和美國(guó)蘋果應(yīng)用商店免費(fèi)APP榜,,超越ChatGPT,。R1的成功進(jìn)一步鞏固了DeepSeek的全球影響力,引發(fā)美國(guó)科技股拋售,,如英偉達(dá)市值損失了6000億美元,。
中國(guó)AI初創(chuàng)公司深度求索(DeepSeek)在短短一個(gè)月內(nèi)發(fā)布了兩款大模型:DeepSeek-V3和DeepSeek-R1
2025-01-27 19:35:39DeepSeek為何引發(fā)全球轟動(dòng)