谷歌和Meta相繼在無(wú)限長(zhǎng)上下文建模領(lǐng)域展開(kāi)角逐。Transformer模型因二次復(fù)雜度及對(duì)長(zhǎng)序列處理的局限性,,盡管已有線性注意力和狀態(tài)空間模型等次二次解決方案,,但其預(yù)訓(xùn)練效率和下游任務(wù)準(zhǔn)確性仍不盡人意。谷歌近期推出的Infini-Transformer通過(guò)創(chuàng)新方法,,使大型語(yǔ)言模型能夠處理無(wú)限長(zhǎng)輸入,,且無(wú)需增加內(nèi)存與計(jì)算需求,引發(fā)業(yè)界關(guān)注,。
緊隨其后,,Meta攜手南加州大學(xué)、CMU,、UCSD等研發(fā)團(tuán)隊(duì),,推出了名為MEGALODON的神經(jīng)架構(gòu),同樣致力于無(wú)限長(zhǎng)文本的高效序列建模,,上下文長(zhǎng)度無(wú)任何限制,。MEGALODON在MEGA架構(gòu)基礎(chǔ)上,,引入了復(fù)數(shù)指數(shù)移動(dòng)平均(CEMA)、時(shí)間步歸一化層,、歸一化注意力機(jī)制及具備雙特征的預(yù)歸一化殘差配置等技術(shù)組件,,旨在提升模型能力和穩(wěn)定性。
在與LLAMA2的對(duì)比試驗(yàn)中,,擁有70億參數(shù),、經(jīng)過(guò)2萬(wàn)億訓(xùn)練token的MEGALODON展現(xiàn)出超越Transformer的效率優(yōu)勢(shì)。其訓(xùn)練損失為1.70,,介于LLAMA2-7B(1.75)與13B(1.67)之間,。一系列基準(zhǔn)測(cè)試進(jìn)一步證實(shí)了MEGALODON在不同任務(wù)與模式中相對(duì)于Transformers的顯著改進(jìn)。
MEGALODON的核心改進(jìn)在于對(duì)MEGA架構(gòu)的優(yōu)化,,利用門(mén)控注意力機(jī)制與經(jīng)典指數(shù)移動(dòng)平均法,。為增強(qiáng)大規(guī)模長(zhǎng)上下文預(yù)訓(xùn)練的能力與效率,研究者引入了CEMA,,將MEGA中的多維阻尼EMA擴(kuò)展至復(fù)數(shù)域,;并設(shè)計(jì)了時(shí)間步歸一化層,,將組歸一化應(yīng)用于自回歸序列建模,,實(shí)現(xiàn)沿順序維度的歸一化,。此外,,通過(guò)預(yù)歸一化與兩跳殘差配置調(diào)整,以及將輸入序列分塊為固定塊,,確保了模型訓(xùn)練與推理過(guò)程中的線性計(jì)算與內(nèi)存復(fù)雜性,。
在與LLAMA2的直接較量中,MEGALODON-7B在同等數(shù)據(jù)與計(jì)算資源條件下,,訓(xùn)練困惑度顯著低于最先進(jìn)的Transformer變體,。針對(duì)長(zhǎng)上下文建模能力的評(píng)估涵蓋了從2M的多種上下文長(zhǎng)度到Scrolls中的長(zhǎng)上下文QA任務(wù),充分證明了MEGALODON處理無(wú)限長(zhǎng)度序列的能力,。此外,,在LRA、ImageNet,、Speech Commands,、WikiText-103和PG19等中小型基準(zhǔn)測(cè)試中,MEGALODON在體量與多模態(tài)處理方面展現(xiàn)卓越性能,。
4月17日,昆侖萬(wàn)維發(fā)布重要消息:其自主研發(fā)的“天工3.0”基座大模型及“天工SkyMusic”音樂(lè)大模型已面向公眾開(kāi)放公測(cè)
2024-04-17 15:00:08昆侖萬(wàn)維宣布天工3.0大模型開(kāi)啟公測(cè)近期,,斯坦福大學(xué)的人工智能研究團(tuán)隊(duì)推出了一款名為L(zhǎng)lama3-V的多模態(tài)大型模型,,宣稱其性能超越了GPT-4V等其他知名模型
2024-06-04 20:06:10斯坦福AI團(tuán)隊(duì)“套殼”清華系開(kāi)源大模型被實(shí)錘