英偉達(dá)新研究:上下文長度虛標(biāo)嚴(yán)重,,32K性能合格的都不多
英偉達(dá)最近的研究揭示了長上下文大模型存在虛標(biāo)現(xiàn)象,涉及包括GPT-4在內(nèi)的10個(gè)知名模型,。這些模型宣稱能處理128K乃至1M的上下文長度,,但在英偉達(dá)設(shè)計(jì)的新指標(biāo)“有效上下文”測(cè)試下,,能維持32K有效長度的模型已顯稀缺。這一新基準(zhǔn)名為RULER,,它通過檢索,、多跳追蹤、聚合及問答四類共13項(xiàng)任務(wù),,評(píng)估模型處理長文本的真實(shí)能力,,確保關(guān)注點(diǎn)在于模型的理解而非單純的信息回憶。英偉達(dá)新研究:上下文長度虛標(biāo)嚴(yán)重,,32K性能合格的都不多,。
RULER基準(zhǔn)的獨(dú)特之處在于減少了對(duì)模型預(yù)存“參數(shù)化知識(shí)”的依賴,增強(qiáng)了評(píng)測(cè)的公平性和全面性,。例如,,它不僅升級(jí)了傳統(tǒng)的單一檢索任務(wù),還引入了多針檢索,、多值檢索,、多查詢檢索等復(fù)雜情景,以及模擬指代消解的變量追蹤,、詞匯提取和抗干擾的長序列問答等挑戰(zhàn),,全方位檢驗(yàn)?zāi)P偷拈L文本處理實(shí)力,。
實(shí)驗(yàn)涵蓋了從6B至8x7B參數(shù)規(guī)模不等的10個(gè)模型,包括GPT-4及其他開源模型如Command-R,、Yi-34B等,,最大上下文長度跨度從32K至1M。在RULER的嚴(yán)格測(cè)試下,,盡管多數(shù)模型在其標(biāo)稱的長上下文范圍內(nèi)表現(xiàn)出色,,但深入分析發(fā)現(xiàn),僅Mixtral模型能在其聲明的長度上持續(xù)超越基線性能,。GPT-4在4K長度下展現(xiàn)出最佳性能,,且在擴(kuò)展至128K時(shí)性能下降最少。開源模型中,,Command-R,、Yi-34B及Mixtral因采用較大RoPE基頻和更多參數(shù),表現(xiàn)突出,。
進(jìn)一步的研究還探索了輸入長度,、任務(wù)復(fù)雜度對(duì)模型表現(xiàn)的影響,以及模型大小,、架構(gòu)對(duì)長上下文處理能力的作用,。結(jié)果顯示,增大訓(xùn)練上下文通常提升性能,,但效果不恒定,;模型規(guī)模擴(kuò)大顯著有利于長文本理解;非Transformer架構(gòu)模型在此類任務(wù)上表現(xiàn)不及基于Transformer的模型,。
對(duì)于那些渴望深入了解模型長文本處理能力局限及優(yōu)化方向的研究者而言,,英偉達(dá)的這項(xiàng)研究無疑提供了寶貴的洞見和實(shí)證基礎(chǔ)。
英偉達(dá)新研究:上下文長度虛標(biāo)嚴(yán)重,,32K性能合格的都不多,。
人工智能的潛力與當(dāng)前實(shí)際成效之間仍存在顯著差距,,這一現(xiàn)狀可能是投資者面臨的一項(xiàng)重大挑戰(zhàn)
2024-06-03 22:32:33美股可能會(huì)“成也英偉達(dá)英偉達(dá)(NVDA,,股價(jià):1064.690美元,總市值2.62萬億美元)突然遭華爾街巨頭“空襲”,。
2024-05-28 09:55:22意外,!英偉達(dá)