英偉達(dá)新研究:上下文長度虛標(biāo)嚴(yán)重,,32K性能合格的都不多
英偉達(dá)最近的研究揭示了長上下文大模型存在虛標(biāo)現(xiàn)象,涉及包括GPT-4在內(nèi)的10個知名模型,。這些模型宣稱能處理128K乃至1M的上下文長度,,但在英偉達(dá)設(shè)計的新指標(biāo)“有效上下文”測試下,能維持32K有效長度的模型已顯稀缺,。這一新基準(zhǔn)名為RULER,,它通過檢索、多跳追蹤,、聚合及問答四類共13項(xiàng)任務(wù),,評估模型處理長文本的真實(shí)能力,確保關(guān)注點(diǎn)在于模型的理解而非單純的信息回憶,。英偉達(dá)新研究:上下文長度虛標(biāo)嚴(yán)重,,32K性能合格的都不多。
RULER基準(zhǔn)的獨(dú)特之處在于減少了對模型預(yù)存“參數(shù)化知識”的依賴,,增強(qiáng)了評測的公平性和全面性,。例如,它不僅升級了傳統(tǒng)的單一檢索任務(wù),,還引入了多針檢索,、多值檢索、多查詢檢索等復(fù)雜情景,,以及模擬指代消解的變量追蹤,、詞匯提取和抗干擾的長序列問答等挑戰(zhàn),,全方位檢驗(yàn)?zāi)P偷拈L文本處理實(shí)力。
實(shí)驗(yàn)涵蓋了從6B至8x7B參數(shù)規(guī)模不等的10個模型,,包括GPT-4及其他開源模型如Command-R,、Yi-34B等,最大上下文長度跨度從32K至1M,。在RULER的嚴(yán)格測試下,,盡管多數(shù)模型在其標(biāo)稱的長上下文范圍內(nèi)表現(xiàn)出色,但深入分析發(fā)現(xiàn),,僅Mixtral模型能在其聲明的長度上持續(xù)超越基線性能,。GPT-4在4K長度下展現(xiàn)出最佳性能,且在擴(kuò)展至128K時性能下降最少,。開源模型中,,Command-R、Yi-34B及Mixtral因采用較大RoPE基頻和更多參數(shù),,表現(xiàn)突出,。
進(jìn)一步的研究還探索了輸入長度、任務(wù)復(fù)雜度對模型表現(xiàn)的影響,,以及模型大小,、架構(gòu)對長上下文處理能力的作用。結(jié)果顯示,,增大訓(xùn)練上下文通常提升性能,,但效果不恒定;模型規(guī)模擴(kuò)大顯著有利于長文本理解,;非Transformer架構(gòu)模型在此類任務(wù)上表現(xiàn)不及基于Transformer的模型,。
對于那些渴望深入了解模型長文本處理能力局限及優(yōu)化方向的研究者而言,英偉達(dá)的這項(xiàng)研究無疑提供了寶貴的洞見和實(shí)證基礎(chǔ),。
英偉達(dá)新研究:上下文長度虛標(biāo)嚴(yán)重,,32K性能合格的都不多。
人工智能的潛力與當(dāng)前實(shí)際成效之間仍存在顯著差距,這一現(xiàn)狀可能是投資者面臨的一項(xiàng)重大挑戰(zhàn)
2024-06-03 22:32:33美股可能會“成也英偉達(dá)英偉達(dá)(NVDA,股價:1064.690美元,,總市值2.62萬億美元)突然遭華爾街巨頭“空襲”,。
2024-05-28 09:55:22意外!英偉達(dá)