Meta無限長(zhǎng)文本大模型來了：參數(shù)僅7B，已開源高效穩(wěn)定,，超越Transformer

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2024-04-18 12:57:16 搜狐網(wǎng)

谷歌和Meta相繼在無限長(zhǎng)上下文建模領(lǐng)域展開角逐,。Transformer模型因二次復(fù)雜度及對(duì)長(zhǎng)序列處理的局限性，盡管已有線性注意力和狀態(tài)空間模型等次二次解決方案,，但其預(yù)訓(xùn)練效率和下游任務(wù)準(zhǔn)確性仍不盡人意,。谷歌近期推出的Infini-Transformer通過創(chuàng)新方法，使大型語言模型能夠處理無限長(zhǎng)輸入,，且無需增加內(nèi)存與計(jì)算需求,，引發(fā)業(yè)界關(guān)注。

緊隨其后，Meta攜手南加州大學(xué),、CMU,、UCSD等研發(fā)團(tuán)隊(duì)，推出了名為MEGALODON的神經(jīng)架構(gòu),，同樣致力于無限長(zhǎng)文本的高效序列建模,，上下文長(zhǎng)度無任何限制。MEGALODON在MEGA架構(gòu)基礎(chǔ)上,，引入了復(fù)數(shù)指數(shù)移動(dòng)平均（CEMA）,、時(shí)間步歸一化層、歸一化注意力機(jī)制及具備雙特征的預(yù)歸一化殘差配置等技術(shù)組件,，旨在提升模型能力和穩(wěn)定性,。

在與LLAMA2的對(duì)比試驗(yàn)中，擁有70億參數(shù),、經(jīng)過2萬億訓(xùn)練token的MEGALODON展現(xiàn)出超越Transformer的效率優(yōu)勢(shì),。其訓(xùn)練損失為1.70，介于LLAMA2-7B（1.75）與13B（1.67）之間,。一系列基準(zhǔn)測(cè)試進(jìn)一步證實(shí)了MEGALODON在不同任務(wù)與模式中相對(duì)于Transformers的顯著改進(jìn),。

MEGALODON的核心改進(jìn)在于對(duì)MEGA架構(gòu)的優(yōu)化，利用門控注意力機(jī)制與經(jīng)典指數(shù)移動(dòng)平均法,。為增強(qiáng)大規(guī)模長(zhǎng)上下文預(yù)訓(xùn)練的能力與效率,，研究者引入了CEMA，將MEGA中的多維阻尼EMA擴(kuò)展至復(fù)數(shù)域,；并設(shè)計(jì)了時(shí)間步歸一化層,，將組歸一化應(yīng)用于自回歸序列建模，實(shí)現(xiàn)沿順序維度的歸一化,。此外,，通過預(yù)歸一化與兩跳殘差配置調(diào)整，以及將輸入序列分塊為固定塊,，確保了模型訓(xùn)練與推理過程中的線性計(jì)算與內(nèi)存復(fù)雜性,。

在與LLAMA2的直接較量中，MEGALODON-7B在同等數(shù)據(jù)與計(jì)算資源條件下,，訓(xùn)練困惑度顯著低于最先進(jìn)的Transformer變體,。針對(duì)長(zhǎng)上下文建模能力的評(píng)估涵蓋了從2M的多種上下文長(zhǎng)度到Scrolls中的長(zhǎng)上下文QA任務(wù)，充分證明了MEGALODON處理無限長(zhǎng)度序列的能力,。此外,，在LRA、ImageNet,、Speech Commands,、WikiText-103和PG19等中小型基準(zhǔn)測(cè)試中,，MEGALODON在體量與多模態(tài)處理方面展現(xiàn)卓越性能,。

論文詳細(xì)介紹了MEGALODON的技術(shù)創(chuàng)新,，包括對(duì)MEGA架構(gòu)中關(guān)鍵組件的回顧及存在問題的探討。為解決MEGA面臨的表達(dá)能力受限,、架構(gòu)差異及無法大規(guī)模預(yù)訓(xùn)練等問題,，研究者創(chuàng)新提出CEMA，將多維阻尼EMA擴(kuò)展至復(fù)數(shù)域,；引入時(shí)間步歸一化,，通過計(jì)算累積均值與方差，將組歸一化擴(kuò)展至自回歸情況,；定制歸一化注意力機(jī)制以提升穩(wěn)定性,；并設(shè)計(jì)具有Two-hop殘差的預(yù)范數(shù)結(jié)構(gòu)，有效應(yīng)對(duì)模型規(guī)模擴(kuò)大帶來的預(yù)歸一化不穩(wěn)定問題,。

實(shí)驗(yàn)結(jié)果顯示,，MEGALODON在長(zhǎng)上下文序列建模的可擴(kuò)展性與效率上表現(xiàn)出色。在相同訓(xùn)練token下,，MEGALODON-7B的負(fù)對(duì)數(shù)似然（NLL）優(yōu)于LLAMA2-7B,，顯示出更高的數(shù)據(jù)效率。在不同上下文長(zhǎng)度下的WPS（word/token per second）對(duì)比中,，MEGALODON-7B在處理長(zhǎng)上下文時(shí)速度明顯快于LLAMA2-7B,，印證了其在長(zhǎng)上下文預(yù)訓(xùn)練中的計(jì)算效率優(yōu)勢(shì)。

在各項(xiàng)基準(zhǔn)測(cè)試中,，MEGALODON均展現(xiàn)出優(yōu)秀性能,，無論是在短上下文任務(wù)，還是長(zhǎng)上下文任務(wù),，以及指令微調(diào),、中等規(guī)模基準(zhǔn)評(píng)估（如ImageNet-1K圖像分類與PG-19文本生成）等方面,，MEGALODON均取得優(yōu)異成績(jī),，部分甚至超越已使用RLHF進(jìn)行對(duì)齊微調(diào)的模型。這些成果充分驗(yàn)證了MEGALODON在無限長(zhǎng)上下文建模領(lǐng)域的先進(jìn)性與廣泛應(yīng)用潛力,。

(責(zé)任編輯：張蕾)

關(guān)閉

Meta無限長(zhǎng)文本大模型來了：參數(shù)僅7B，已開源 高效穩(wěn)定,，超越Transformer

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

Meta無限長(zhǎng)文本大模型來了：參數(shù)僅7B，已開源高效穩(wěn)定,，超越Transformer