2月18日,DeepSeek官方在海外社交平臺(tái)X上發(fā)布了一篇關(guān)于NSA(Natively Sparse Attention,原生稀疏注意力)的技術(shù)論文,。這種機(jī)制用于超快速長文本訓(xùn)練與推理,,硬件對(duì)齊且可原生訓(xùn)練。NSA針對(duì)現(xiàn)代硬件進(jìn)行了優(yōu)化設(shè)計(jì),,能夠加速推理過程,,降低預(yù)訓(xùn)練成本,且不犧牲性能,。它在通用基準(zhǔn)測試,、長文本任務(wù)和基于指令的推理中均能達(dá)到或超越全注意力模型的表現(xiàn)。
論文指出,,業(yè)界越來越認(rèn)識(shí)到長上下文建模對(duì)于下一代大型語言模型的重要性,。推動(dòng)這一需求的應(yīng)用包括深度推理,、倉庫級(jí)代碼生成和多輪自主代理系統(tǒng)。然而,,隨著序列長度的增加,,標(biāo)準(zhǔn)注意力機(jī)制的高復(fù)雜度成為關(guān)鍵的延遲瓶頸。理論估計(jì)表明,,在使用softmax架構(gòu)時(shí),,注意力計(jì)算占解碼64k長度上下文總延遲的70%-80%,這凸顯了對(duì)更高效注意力機(jī)制的迫切需求,。
DeepSeek團(tuán)隊(duì)表示,,NSA的核心價(jià)值在于平衡效率與性能,既降低計(jì)算成本,,又保持甚至提升模型能力,。NSA為處理長上下文任務(wù)提供了一種高效的解決方案,有助于推動(dòng)更強(qiáng)大,、更經(jīng)濟(jì)的語言模型的發(fā)展,,尤其是在需要處理長文本的應(yīng)用場景中。通過高效的長序列處理能力,,NSA使模型能夠直接處理整本書籍,、代碼倉庫或多輪對(duì)話,擴(kuò)展了大語言模型在文檔分析,、代碼生成,、復(fù)雜推理等領(lǐng)域的應(yīng)用邊界。例如,,Gemini 1.5 Pro已展示長上下文潛力,,NSA可進(jìn)一步降低此類模型的訓(xùn)練與推理成本。
此外,,NSA能夠降低算力門檻與部署成本,。端到端稀疏訓(xùn)練可以減少預(yù)訓(xùn)練所需的計(jì)算資源,降低企業(yè)開發(fā)大模型的資金與技術(shù)門檻,。同時(shí),,它可以加速推理,使長文本生成(如代碼補(bǔ)全,、故事續(xù)寫)的實(shí)時(shí)性更高,,適用于邊緣設(shè)備或低延遲場景。
一位X用戶在DeepSeek帖子下評(píng)論稱,,“NSA機(jī)制改變了游戲規(guī)則,。超快速長上下文訓(xùn)練對(duì)于擴(kuò)大教育領(lǐng)域AI至關(guān)重要,這與個(gè)性化學(xué)習(xí)愿景完美契合?!边€有網(wǎng)友對(duì)此調(diào)侃“RIP Nvidia”,。
自1月20日發(fā)布DeepSeek-R1以來,DeepSeek一直較為低調(diào),,這是他們?cè)谶@段時(shí)間內(nèi)唯一發(fā)布的技術(shù)動(dòng)態(tài),。有X網(wǎng)友表示,“DeepSeek團(tuán)隊(duì)正在積極工作,!”
在科技領(lǐng)域風(fēng)起云涌的今天,一家名為DeepSeek的AI公司突然成為了全球關(guān)注的焦點(diǎn)
2025-02-11 14:32:25DeepSeek梁文鋒身家暴漲