在AI領(lǐng)域,,技術(shù)創(chuàng)新與突破一直是各大廠商和研究機(jī)構(gòu)競相追逐的焦點(diǎn)。近日,,DeepSeek的梁文鋒與月之暗面的楊植麟因各自發(fā)表的論文“撞車”而引發(fā)廣泛關(guān)注,。同時(shí),DeepSeek迅速崛起讓月之暗面陷入尷尬境地,,甚至有消息稱月之暗面已大幅降低廣告投放,。
2月18日,DeepSeek與月之暗面幾乎同時(shí)發(fā)布了最新論文,,主題都是挑戰(zhàn)Transformer架構(gòu)的核心注意力機(jī)制,,旨在使其更高效處理更長上下文。DeepSeek的論文提出名為NSA的新架構(gòu),,在基準(zhǔn)測試中表現(xiàn)出色,,準(zhǔn)確率相同或更高,處理64k標(biāo)記序列時(shí)速度提高至11.6倍,,訓(xùn)練更高效且所需算力更少,。
月之暗面的論文則提出了MoBA架構(gòu),使用將“詞”變成塊的方法,,并設(shè)計(jì)了一套可以自由切換全注意力和稀疏注意力機(jī)制的方式,,給現(xiàn)有全注意力模型更多適配空間。這兩篇論文展示了兩位創(chuàng)始人在技術(shù)領(lǐng)域的深厚功底,,揭示了AI大模型技術(shù)發(fā)展的新方向,。清華大學(xué)教授章明星指出,兩篇論文都指向了可反向傳遞的learned sparse attention,。
與此同時(shí),,DeepSeek憑借其強(qiáng)大的技術(shù)實(shí)力和精準(zhǔn)的市場定位迅速嶄露頭角。據(jù)報(bào)道,,DeepSeek在幾十天內(nèi)達(dá)到3500萬DAU,,這一成績令業(yè)界震驚。相比之下,,月之暗面雖然推出了Kimi等產(chǎn)品,,但在用戶增長方面顯得力不從心。盡管投入大量資金進(jìn)行廣告投放,,但效果不佳,,一年多時(shí)間僅獲得不足千萬量級(jí)的日活數(shù)據(jù)。
DeepSeek的崛起給月之暗面帶來了巨大壓力,。一方面,,DeepSeek的技術(shù)實(shí)力和市場表現(xiàn)削弱了月之暗面的技術(shù)優(yōu)勢;另一方面,,DeepSeek的迅速擴(kuò)張也擠壓了月之暗面的市場份額,。在此背景下,,月之暗面不得不重新審視自己的市場定位和技術(shù)路線。團(tuán)隊(duì)計(jì)劃重新訓(xùn)練基礎(chǔ)模型,,同時(shí)關(guān)注應(yīng)用層機(jī)會(huì),,如參考OpenAI的DeepResearch產(chǎn)品方向。盡管月之暗面擁有多模態(tài)能力,、資本儲(chǔ)備和品牌余溫等優(yōu)勢,,但在競爭激烈的AI市場,留給它的時(shí)間窗口正在縮小,。
從行業(yè)影響來看,,DeepSeek的爆發(fā)重塑了中國大模型賽道。資本邏輯從過去的“燒錢換估值”轉(zhuǎn)向關(guān)注技術(shù)性價(jià)比與商業(yè)化閉環(huán),;生態(tài)鏈重構(gòu),,百度、騰訊等大廠紛紛接入DeepSeek的開源模型,,閉源玩家生存空間被擠壓,;技術(shù)平民化趨勢顯現(xiàn),算法創(chuàng)新降低了對(duì)進(jìn)口硬件的依賴,,國產(chǎn)芯片能效比提升,。在這樣的環(huán)境下,月之暗面面臨巨大挑戰(zhàn),,如何在開源生態(tài),、成本控制或垂直場景中找到新支點(diǎn)成為破局關(guān)鍵。
2025年2月19日星期三梁文鋒帶領(lǐng)實(shí)習(xí)生袁景陽發(fā)表了一篇關(guān)于原生稀疏注意力(NSA)的技術(shù)論文
2025-02-20 06:16:03梁文鋒帶實(shí)習(xí)生發(fā)論文