英偉達(dá)新研究：上下文長度虛標(biāo)嚴(yán)重,，32K性能合格的都不多

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2024-06-03 21:09:27 網(wǎng)易

英偉達(dá)最近的研究揭示了長上下文大模型存在虛標(biāo)現(xiàn)象，涉及包括GPT-4在內(nèi)的10個知名模型,。這些模型宣稱能處理128K乃至1M的上下文長度,，但在英偉達(dá)設(shè)計的新指標(biāo)“有效上下文”測試下，能維持32K有效長度的模型已顯稀缺,。這一新基準(zhǔn)名為RULER,，它通過檢索、多跳追蹤,、聚合及問答四類共13項(xiàng)任務(wù),，評估模型處理長文本的真實(shí)能力，確保關(guān)注點(diǎn)在于模型的理解而非單純的信息回憶,。英偉達(dá)新研究：上下文長度虛標(biāo)嚴(yán)重,，32K性能合格的都不多。

RULER基準(zhǔn)的獨(dú)特之處在于減少了對模型預(yù)存“參數(shù)化知識”的依賴,，增強(qiáng)了評測的公平性和全面性,。例如，它不僅升級了傳統(tǒng)的單一檢索任務(wù),，還引入了多針檢索,、多值檢索、多查詢檢索等復(fù)雜情景,，以及模擬指代消解的變量追蹤,、詞匯提取和抗干擾的長序列問答等挑戰(zhàn),，全方位檢驗(yàn)?zāi)Ｐ偷拈L文本處理實(shí)力。

實(shí)驗(yàn)涵蓋了從6B至8x7B參數(shù)規(guī)模不等的10個模型,，包括GPT-4及其他開源模型如Command-R,、Yi-34B等，最大上下文長度跨度從32K至1M,。在RULER的嚴(yán)格測試下,，盡管多數(shù)模型在其標(biāo)稱的長上下文范圍內(nèi)表現(xiàn)出色，但深入分析發(fā)現(xiàn),，僅Mixtral模型能在其聲明的長度上持續(xù)超越基線性能,。GPT-4在4K長度下展現(xiàn)出最佳性能，且在擴(kuò)展至128K時性能下降最少,。開源模型中,，Command-R、Yi-34B及Mixtral因采用較大RoPE基頻和更多參數(shù),，表現(xiàn)突出,。

進(jìn)一步的研究還探索了輸入長度、任務(wù)復(fù)雜度對模型表現(xiàn)的影響,，以及模型大小,、架構(gòu)對長上下文處理能力的作用。結(jié)果顯示,，增大訓(xùn)練上下文通常提升性能,，但效果不恒定；模型規(guī)模擴(kuò)大顯著有利于長文本理解,；非Transformer架構(gòu)模型在此類任務(wù)上表現(xiàn)不及基于Transformer的模型,。

對于那些渴望深入了解模型長文本處理能力局限及優(yōu)化方向的研究者而言，英偉達(dá)的這項(xiàng)研究無疑提供了寶貴的洞見和實(shí)證基礎(chǔ),。

英偉達(dá)新研究：上下文長度虛標(biāo)嚴(yán)重,，32K性能合格的都不多。

(責(zé)任編輯：盧其龍 CN070)

關(guān)閉

英偉達(dá)新研究：上下文長度虛標(biāo)嚴(yán)重,，32K性能合格的都不多

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)