論文詳細(xì)介紹了MEGALODON的技術(shù)創(chuàng)新,包括對MEGA架構(gòu)中關(guān)鍵組件的回顧及存在問題的探討,。為解決MEGA面臨的表達(dá)能力受限,、架構(gòu)差異及無法大規(guī)模預(yù)訓(xùn)練等問題,研究者創(chuàng)新提出CEMA,,將多維阻尼EMA擴(kuò)展至復(fù)數(shù)域,;引入時(shí)間步歸一化,通過計(jì)算累積均值與方差,,將組歸一化擴(kuò)展至自回歸情況,;定制歸一化注意力機(jī)制以提升穩(wěn)定性;并設(shè)計(jì)具有Two-hop殘差的預(yù)范數(shù)結(jié)構(gòu),,有效應(yīng)對模型規(guī)模擴(kuò)大帶來的預(yù)歸一化不穩(wěn)定問題,。
實(shí)驗(yàn)結(jié)果顯示,MEGALODON在長上下文序列建模的可擴(kuò)展性與效率上表現(xiàn)出色,。在相同訓(xùn)練token下,,MEGALODON-7B的負(fù)對數(shù)似然(NLL)優(yōu)于LLAMA2-7B,顯示出更高的數(shù)據(jù)效率,。在不同上下文長度下的WPS(word/token per second)對比中,,MEGALODON-7B在處理長上下文時(shí)速度明顯快于LLAMA2-7B,,印證了其在長上下文預(yù)訓(xùn)練中的計(jì)算效率優(yōu)勢。
在各項(xiàng)基準(zhǔn)測試中,,MEGALODON均展現(xiàn)出優(yōu)秀性能,,無論是在短上下文任務(wù),還是長上下文任務(wù),,以及指令微調(diào),、中等規(guī)模基準(zhǔn)評估(如ImageNet-1K圖像分類與PG-19文本生成)等方面,,MEGALODON均取得優(yōu)異成績,,部分甚至超越已使用RLHF進(jìn)行對齊微調(diào)的模型。這些成果充分驗(yàn)證了MEGALODON在無限長上下文建模領(lǐng)域的先進(jìn)性與廣泛應(yīng)用潛力,。
4月17日,,昆侖萬維發(fā)布重要消息:其自主研發(fā)的“天工3.0”基座大模型及“天工SkyMusic”音樂大模型已面向公眾開放公測
2024-04-17 15:00:08昆侖萬維宣布天工3.0大模型開啟公測近期,,斯坦福大學(xué)的人工智能研究團(tuán)隊(duì)推出了一款名為Llama3-V的多模態(tài)大型模型,宣稱其性能超越了GPT-4V等其他知名模型
2024-06-04 20:06:10斯坦福AI團(tuán)隊(duì)“套殼”清華系開源大模型被實(shí)錘