阿里發(fā)通用多模態(tài)大模型mPLUG-Owl3 4秒看完2小時(shí)電影

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2024-08-19 17:47:52 搜狐網(wǎng)

阿里mPLUG團(tuán)隊(duì)近期發(fā)布了一項(xiàng)新成果——通用多模態(tài)大模型mPLUG-Owl3,，這款模型專為理解復(fù)雜多圖和長(zhǎng)視頻內(nèi)容設(shè)計(jì),。mPLUG-Owl3在提升推理效率方面實(shí)現(xiàn)了顯著突破,，它能將First Token Latency降低6倍，并在單張A100顯卡上處理的圖像數(shù)量提升至400張,，這意味著一部2小時(shí)的電影僅需4秒即可完成分析,。重要的是，效率的飛躍并未犧牲模型的準(zhǔn)確性,，mPLUG-Owl3在多模態(tài)場(chǎng)景的多個(gè)基準(zhǔn)測(cè)試中均達(dá)到了最佳水平,。

團(tuán)隊(duì)展示了mPLUG-Owl3的多樣應(yīng)用，包括多模態(tài)檢索增強(qiáng),、多圖推理及長(zhǎng)視頻理解,。在多模態(tài)檢索中，模型不僅能夠準(zhǔn)確回應(yīng)查詢,，還能明確指出其決策依據(jù),；多圖推理功能則使模型能夠理解不同圖像間的關(guān)聯(lián)，進(jìn)行邏輯推理,；而對(duì)于長(zhǎng)視頻,，mPLUG-Owl3能夠在短時(shí)間內(nèi)解析并回答關(guān)于視頻細(xì)節(jié)的問(wèn)題，解決了傳統(tǒng)模型處理超長(zhǎng)視頻的難題,。

mPLUG-Owl3之所以能高效融合多模態(tài)信息,，得益于其創(chuàng)新的Hyper Attention模塊。這一設(shè)計(jì)允許模型在不增加語(yǔ)言模型序列負(fù)擔(dān)的情況下,，直接與視覺(jué)特征交互,，減少了計(jì)算成本和內(nèi)存占用。通過(guò)精心設(shè)計(jì)的Cross-Attention操作,，模型能夠精準(zhǔn)提取并利用視覺(jué)信息,，同時(shí)保持了對(duì)文本的高效處理能力。此外,，團(tuán)隊(duì)還引入了多模態(tài)交錯(cuò)的旋轉(zhuǎn)位置編碼MI-Rope,，幫助模型更好地理解視覺(jué)元素在原始文本中的上下文關(guān)系，進(jìn)一步優(yōu)化了多模態(tài)融合效果,。

實(shí)驗(yàn)結(jié)果顯示，mPLUG-Owl3在廣泛的多模態(tài)基準(zhǔn)測(cè)試中取得了領(lǐng)先成績(jī),，無(wú)論是在單圖,、多圖還是長(zhǎng)視頻理解任務(wù)上，都展現(xiàn)出了超越以往模型的能力,。特別是在處理長(zhǎng)視覺(jué)序列時(shí),，即使面對(duì)大量無(wú)關(guān)圖像的干擾,，mPLUG-Owl3依然能保持較高準(zhǔn)確率，體現(xiàn)了其在復(fù)雜場(chǎng)景下的魯棒性,。

對(duì)于那些希望深入了解mPLUG-Owl3技術(shù)細(xì)節(jié)和實(shí)驗(yàn)結(jié)果的讀者,，可以通過(guò)論文和開(kāi)源代碼進(jìn)行探索，團(tuán)隊(duì)還提供了在線演示和預(yù)訓(xùn)練模型的訪問(wèn)鏈接,，方便研究人員和開(kāi)發(fā)者實(shí)際體驗(yàn)這一模型的性能,。

(責(zé)任編輯：張佳鑫 0764)

關(guān)閉

阿里發(fā)通用多模態(tài)大模型mPLUG-Owl3 4秒看完2小時(shí)電影

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)