2月18日,DeepSeek團隊發(fā)布了一篇新論文,,介紹了一種改進的稀疏注意力機制NSA,,適用于超快速的長上下文訓(xùn)練與推理。NSA以性價比極高的方式在訓(xùn)練階段應(yīng)用稀疏性,,在訓(xùn)推場景中均實現(xiàn)速度的明顯提升,特別是在解碼階段實現(xiàn)了高達11.6倍的提升,。
DeepSeek創(chuàng)始人兼CEO梁文鋒出現(xiàn)在了合著名單之中,,位列倒數(shù)第二,表明他作為項目管理者參與了一線研究工作,。這篇論文的第一作者Jingyang Yuan是在實習(xí)期間完成的研究,。
NSA具有三大核心組件:動態(tài)分層稀疏策略、粗粒度token壓縮和精粒度token選擇,。這些組件協(xié)同工作,,既提升了效率,也保留了模型對全局長上下文的感知能力和局部精確性,。NSA專門針對現(xiàn)代硬件進行優(yōu)化設(shè)計,,支持模型訓(xùn)練,加速推理并降低預(yù)訓(xùn)練成本,,對性能無明顯影響,。采用NSA機制的模型在通用基準、長上下文任務(wù)和基于指令的推理上,,與全注意力模型相當(dāng)或表現(xiàn)更優(yōu),。
在8卡A100計算集群上,NSA的前向傳播和反向傳播速度分別比全注意力快9倍和6倍,,由于減少了內(nèi)存訪問量,,NSA在長序列解碼時相較于全注意力模型速度顯著提升,。
長文本建模是下一代語言模型的關(guān)鍵能力,但傳統(tǒng)注意力機制的高復(fù)雜度限制了其在長序列上的應(yīng)用,。例如,,在解碼64k長度的上下文時,注意力計算占據(jù)了總延遲的70%至80%,。因此,,稀疏注意力機制應(yīng)運而生,通過選擇性計算關(guān)鍵的查詢鍵對來減少計算開銷,。然而,,許多稀疏注意力方法在實際推理中未能顯著降低延遲。
一些方法僅在自回歸解碼階段應(yīng)用稀疏性,,而預(yù)填充階段仍需進行密集計算,;另一些方法僅關(guān)注預(yù)填充階段的稀疏性,導(dǎo)致在某些工作負載下無法實現(xiàn)全階段加速,。還有部分稀疏方法無法適應(yīng)現(xiàn)代高效的解碼架構(gòu),,導(dǎo)致KV緩存訪問量仍然較高,無法充分發(fā)揮稀疏性優(yōu)勢,。此外,,現(xiàn)有的稀疏注意力方法大多僅在推理階段應(yīng)用稀疏性,缺乏對訓(xùn)練階段的支持,。
NSA旨在通過針對硬件特點的推理加速和適用于訓(xùn)練的算法設(shè)計,,填補這一空白。NSA的核心思想是通過動態(tài)分層稀疏策略,,結(jié)合粗粒度的token壓縮和細粒度的token選擇,,以保留全局上下文感知能力和局部精確性。NSA將輸入序列通過三個并行的注意力分支處理:壓縮注意力,、選擇性注意力和滑動窗口注意力,。壓縮注意力通過將鍵和值聚合成塊級表示來捕捉粗粒度的語義信息,減輕注意力計算負擔(dān),。選擇性注意力通過塊選擇機制保留重要的細粒度信息,顯著降低了計算負擔(dān),?;瑒哟翱谧⒁饬W⒂诰植可舷挛男畔ⅲ乐鼓P瓦^度依賴局部模式,。
為測試NSA機制在實際訓(xùn)練,、推理場景中的表現(xiàn),DeepSeek使用了一個結(jié)合分組查詢注意力和混合專家的骨干架構(gòu)作為樣本模型,。在多個通用基準測試中,,采用NSA的模型盡管具有稀疏性,,但其總體性能優(yōu)于所有基線模型,在9項指標中有7項表現(xiàn)最佳,。NSA在長上下文任務(wù)中表現(xiàn)出色,,在64k上下文的“大海撈針”測試中實現(xiàn)了超強的檢索精度。NSA還能與推理模型結(jié)合,,適配前沿的后訓(xùn)練方式,。實驗中,NSA-R在8k和16k上下文設(shè)置下均顯著優(yōu)于全注意力-R,。
在8-GPU A100系統(tǒng)上,,隨著上下文長度的增加,NSA的加速效果愈發(fā)顯著,。在64k上下文長度時,,NSA的前向傳播速度提升了9倍,反向傳播速度提升了6倍,。這種加速主要得益于NSA的硬件對齊設(shè)計,,內(nèi)核中精細的循環(huán)調(diào)度消除了冗余的KV傳輸。盡管NSA取得了顯著成果,,DeepSeek研究團隊指出了一些可能的改進方向,,如進一步優(yōu)化稀疏注意力模式的學(xué)習(xí)過程和探索更高效的硬件實現(xiàn)方式。
舊金山突發(fā)轟動全美的奇案,“開膛手杰克”疑似再現(xiàn),,嫌疑人范圍指向舊金山唐人街,。1月21日,《唐探1900》最新發(fā)布的“所笑披靡”版預(yù)告片引發(fā)觀眾強烈期待
2025-01-22 11:03:57唐探1900發(fā)新預(yù)告1月25日,,武俠電影《射雕英雄傳:俠之大者》發(fā)布了“鐵血丹心”特別預(yù)告
2025-01-26 10:53:15射雕英雄傳