谷歌和Meta相繼在無限長上下文建模領域展開角逐,。Transformer模型因二次復雜度及對長序列處理的局限性,,盡管已有線性注意力和狀態(tài)空間模型等次二次解決方案,,但其預訓練效率和下游任務準確性仍不盡人意。谷歌近期推出的Infini-Transformer通過創(chuàng)新方法,,使大型語言模型能夠處理無限長輸入,,且無需增加內(nèi)存與計算需求,引發(fā)業(yè)界關注,。
緊隨其后,,Meta攜手南加州大學、CMU,、UCSD等研發(fā)團隊,,推出了名為MEGALODON的神經(jīng)架構(gòu),同樣致力于無限長文本的高效序列建模,,上下文長度無任何限制,。MEGALODON在MEGA架構(gòu)基礎上,引入了復數(shù)指數(shù)移動平均(CEMA),、時間步歸一化層,、歸一化注意力機制及具備雙特征的預歸一化殘差配置等技術組件,旨在提升模型能力和穩(wěn)定性,。
在與LLAMA2的對比試驗中,,擁有70億參數(shù)、經(jīng)過2萬億訓練token的MEGALODON展現(xiàn)出超越Transformer的效率優(yōu)勢,。其訓練損失為1.70,,介于LLAMA2-7B(1.75)與13B(1.67)之間。一系列基準測試進一步證實了MEGALODON在不同任務與模式中相對于Transformers的顯著改進,。
MEGALODON的核心改進在于對MEGA架構(gòu)的優(yōu)化,,利用門控注意力機制與經(jīng)典指數(shù)移動平均法。為增強大規(guī)模長上下文預訓練的能力與效率,,研究者引入了CEMA,,將MEGA中的多維阻尼EMA擴展至復數(shù)域;并設計了時間步歸一化層,,將組歸一化應用于自回歸序列建模,,實現(xiàn)沿順序維度的歸一化。此外,,通過預歸一化與兩跳殘差配置調(diào)整,,以及將輸入序列分塊為固定塊,確保了模型訓練與推理過程中的線性計算與內(nèi)存復雜性,。
在與LLAMA2的直接較量中,,MEGALODON-7B在同等數(shù)據(jù)與計算資源條件下,訓練困惑度顯著低于最先進的Transformer變體,。針對長上下文建模能力的評估涵蓋了從2M的多種上下文長度到Scrolls中的長上下文QA任務,,充分證明了MEGALODON處理無限長度序列的能力。此外,在LRA,、ImageNet,、Speech Commands、WikiText-103和PG19等中小型基準測試中,,MEGALODON在體量與多模態(tài)處理方面展現(xiàn)卓越性能,。
論文詳細介紹了MEGALODON的技術創(chuàng)新,包括對MEGA架構(gòu)中關鍵組件的回顧及存在問題的探討,。為解決MEGA面臨的表達能力受限,、架構(gòu)差異及無法大規(guī)模預訓練等問題,研究者創(chuàng)新提出CEMA,,將多維阻尼EMA擴展至復數(shù)域,;引入時間步歸一化,通過計算累積均值與方差,,將組歸一化擴展至自回歸情況,;定制歸一化注意力機制以提升穩(wěn)定性;并設計具有Two-hop殘差的預范數(shù)結(jié)構(gòu),,有效應對模型規(guī)模擴大帶來的預歸一化不穩(wěn)定問題,。
實驗結(jié)果顯示,MEGALODON在長上下文序列建模的可擴展性與效率上表現(xiàn)出色,。在相同訓練token下,,MEGALODON-7B的負對數(shù)似然(NLL)優(yōu)于LLAMA2-7B,顯示出更高的數(shù)據(jù)效率,。在不同上下文長度下的WPS(word/token per second)對比中,,MEGALODON-7B在處理長上下文時速度明顯快于LLAMA2-7B,印證了其在長上下文預訓練中的計算效率優(yōu)勢,。
在各項基準測試中,,MEGALODON均展現(xiàn)出優(yōu)秀性能,無論是在短上下文任務,,還是長上下文任務,,以及指令微調(diào)、中等規(guī)?;鶞试u估(如ImageNet-1K圖像分類與PG-19文本生成)等方面,,MEGALODON均取得優(yōu)異成績,部分甚至超越已使用RLHF進行對齊微調(diào)的模型,。這些成果充分驗證了MEGALODON在無限長上下文建模領域的先進性與廣泛應用潛力,。
4月17日,,昆侖萬維發(fā)布重要消息:其自主研發(fā)的“天工3.0”基座大模型及“天工SkyMusic”音樂大模型已面向公眾開放公測
2024-04-17 15:00:08昆侖萬維宣布天工3.0大模型開啟公測近期,,斯坦福大學的人工智能研究團隊推出了一款名為Llama3-V的多模態(tài)大型模型,宣稱其性能超越了GPT-4V等其他知名模型
2024-06-04 20:06:10斯坦福AI團隊“套殼”清華系開源大模型被實錘