為測(cè)試NSA機(jī)制在實(shí)際訓(xùn)練、推理場(chǎng)景中的表現(xiàn),,DeepSeek使用了一個(gè)結(jié)合分組查詢注意力和混合專家的骨干架構(gòu)作為樣本模型,。在多個(gè)通用基準(zhǔn)測(cè)試中,采用NSA的模型盡管具有稀疏性,,但其總體性能優(yōu)于所有基線模型,,在9項(xiàng)指標(biāo)中有7項(xiàng)表現(xiàn)最佳。NSA在長(zhǎng)上下文任務(wù)中表現(xiàn)出色,,在64k上下文的“大海撈針”測(cè)試中實(shí)現(xiàn)了超強(qiáng)的檢索精度,。NSA還能與推理模型結(jié)合,適配前沿的后訓(xùn)練方式,。實(shí)驗(yàn)中,,NSA-R在8k和16k上下文設(shè)置下均顯著優(yōu)于全注意力-R。
在8-GPU A100系統(tǒng)上,,隨著上下文長(zhǎng)度的增加,,NSA的加速效果愈發(fā)顯著。在64k上下文長(zhǎng)度時(shí),,NSA的前向傳播速度提升了9倍,,反向傳播速度提升了6倍。這種加速主要得益于NSA的硬件對(duì)齊設(shè)計(jì),,內(nèi)核中精細(xì)的循環(huán)調(diào)度消除了冗余的KV傳輸,。盡管NSA取得了顯著成果,DeepSeek研究團(tuán)隊(duì)指出了一些可能的改進(jìn)方向,,如進(jìn)一步優(yōu)化稀疏注意力模式的學(xué)習(xí)過(guò)程和探索更高效的硬件實(shí)現(xiàn)方式,。
1月25日,武俠電影《射雕英雄傳:俠之大者》發(fā)布了“鐵血丹心”特別預(yù)告
2025-01-26 10:53:15射雕英雄傳