2月18日,DeepSeek團隊發(fā)布了一篇新論文,介紹了一種改進的稀疏注意力機制NSA,適用于超快速的長上下文訓(xùn)練與推理,。NSA以性價比極高的方式在訓(xùn)練階段應(yīng)用稀疏性,在訓(xùn)推場景中均實現(xiàn)速度的明顯提升,,特別是在解碼階段實現(xiàn)了高達11.6倍的提升,。
DeepSeek創(chuàng)始人兼CEO梁文鋒出現(xiàn)在了合著名單之中,,位列倒數(shù)第二,,表明他作為項目管理者參與了一線研究工作,。這篇論文的第一作者Jingyang Yuan是在實習(xí)期間完成的研究。
NSA具有三大核心組件:動態(tài)分層稀疏策略,、粗粒度token壓縮和精粒度token選擇,。這些組件協(xié)同工作,既提升了效率,,也保留了模型對全局長上下文的感知能力和局部精確性,。NSA專門針對現(xiàn)代硬件進行優(yōu)化設(shè)計,支持模型訓(xùn)練,,加速推理并降低預(yù)訓(xùn)練成本,,對性能無明顯影響。采用NSA機制的模型在通用基準,、長上下文任務(wù)和基于指令的推理上,,與全注意力模型相當或表現(xiàn)更優(yōu)。
在8卡A100計算集群上,,NSA的前向傳播和反向傳播速度分別比全注意力快9倍和6倍,,由于減少了內(nèi)存訪問量,NSA在長序列解碼時相較于全注意力模型速度顯著提升,。
舊金山突發(fā)轟動全美的奇案,,“開膛手杰克”疑似再現(xiàn),嫌疑人范圍指向舊金山唐人街。1月21日,,《唐探1900》最新發(fā)布的“所笑披靡”版預(yù)告片引發(fā)觀眾強烈期待
2025-01-22 11:03:57唐探1900發(fā)新預(yù)告1月25日,武俠電影《射雕英雄傳:俠之大者》發(fā)布了“鐵血丹心”特別預(yù)告
2025-01-26 10:53:15射雕英雄傳