北大DeepSeek論文或預(yù)定ACL Best Paper！梁文鋒署名引領(lǐng)算力效率競賽

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-05-19 13:51:37 新浪

北大DeepSeek論文或預(yù)定ACL Best Paper,！梁文鋒署名引領(lǐng)算力效率競賽,。北京大學(xué)與DeepSeek合作的論文有望獲得ACL 2025最佳論文獎。該論文由梁文鋒親自提交到arXiv,，地址為https://arxiv.org/abs/2502.11089,。今年ACL的投稿數(shù)量達到了創(chuàng)紀錄的8000多篇，幾乎是去年4407篇的兩倍,。原生稀疏注意力（Native Sparse Attention, NSA）論文在Meta Review中獲得了4.5分的高分,，接近滿分5分。根據(jù)ACL的評分標準，這一分數(shù)已經(jīng)獲得了Borderline Award,，意味著有很高的機會獲得最佳論文,。

北大DeepSeek論文或預(yù)定ACL Best Paper！梁文鋒署名

NSA技術(shù)將AI行業(yè)的焦點從模型規(guī)模競賽轉(zhuǎn)向算力效率競賽,，成為2025年上半年最具影響力的底層技術(shù)突破之一,。DeepSeek-R1的發(fā)布引發(fā)了AI行業(yè)的價值重估，其低成本和同效能的開源技術(shù)改變了人們“有卡才行”的傳統(tǒng)認知,。NSA進一步實現(xiàn)了長下文的算力平權(quán),，使開源模型也能達到閉源模型如ChatGPT、Gemini等才能滿足的上下文窗口,。NSA將長文本處理速度提高了最多11倍,，通過算法創(chuàng)新和硬件改進提高效率而不犧牲性能。

北大DeepSeek論文或預(yù)定ACL Best Paper,！梁文鋒署名引領(lǐng)算力效率競賽

NSA是對傳統(tǒng)注意力機制的一次革新,。傳統(tǒng)模型依賴全注意力機制，每個Token與其他所有Token進行比較,，雖然對短文本有效,，但隨著文本長度增加，計算成本顯著上升,。NSA采用了動態(tài)分層的稀疏策略,，通過三條并行的注意力分支來處理輸入序列：壓縮注意力、選擇性注意力和滑動注意力,。這種設(shè)計不僅平衡了計算密度，還針對現(xiàn)代硬件進行了優(yōu)化,，顯著提升了運行速度,，并實現(xiàn)了端到端的訓(xùn)練模式，在確保模型性能的前提下大幅降低了預(yù)訓(xùn)練的計算量,。

北大DeepSeek論文或預(yù)定ACL Best Paper,！梁文鋒署名引領(lǐng)算力效率競賽

除了NSA論文外，張銘教授團隊還有其他幾篇論文上榜,。其中一篇是首個從數(shù)據(jù)中心視角系統(tǒng)性剖析LLM高效后訓(xùn)練的綜述,，提出了涵蓋數(shù)據(jù)選擇、質(zhì)量增強,、合成數(shù)據(jù)生成,、數(shù)據(jù)蒸餾與壓縮及自演化數(shù)據(jù)生態(tài)的分類框架。另一篇是首個大規(guī)模,、高質(zhì)量的金融多模態(tài)評估數(shù)據(jù)集FinMME,，包含超過11,200個金融研究樣本，覆蓋18個核心金融領(lǐng)域和10種主要圖表類型。此外,，還有一篇關(guān)于大語言模型中的數(shù)學(xué)推理增強方法,，提出了一種創(chuàng)新的Safe驗證框架，從根本上識別并消除幻覺,。最后,，還有一篇基于大語言模型的交通流量預(yù)測方法，提出了一種新的LEAF方法,，利用大語言模型的判別能力來提高預(yù)測準確性,。

12 全文共 2 頁下一頁

關(guān)閉

北大DeepSeek論文或預(yù)定ACL Best Paper！梁文鋒署名 引領(lǐng)算力效率競賽

相關(guān)新聞

今日熱點

頻道熱點

北大DeepSeek論文或預(yù)定ACL Best Paper！梁文鋒署名引領(lǐng)算力效率競賽