DeepSeek深夜發(fā)布多模態(tài)大模型超越DALL-E 3

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-01-28 09:55:43 財(cái)聯(lián)社

中國(guó)公司DeepSeek在華爾街周一評(píng)估“DeepSeek風(fēng)暴”時(shí)，發(fā)布了其最新產(chǎn)品：名為Janus-Pro的多模態(tài)大模型,。該模型在圖像生成基準(zhǔn)測(cè)試中超越了OpenAI的DALL-E 3，并且是開(kāi)源的,。

除夕凌晨鐘聲敲響前不久,，DeepSeek工程師們?cè)凇氨П槨逼脚_(tái)上傳了Janus Pro 7B和1.5B兩個(gè)模型，這是對(duì)去年10月發(fā)布的Janus模型的升級(jí),。這兩個(gè)模型具有15億和70億參數(shù)量,，可以在消費(fèi)級(jí)電腦上本地運(yùn)行。與之前的版本一樣,，Janus Pro采用MIT許可證,，在商用方面沒(méi)有限制。

據(jù)DeepSeek介紹,，Janus-Pro是一個(gè)新穎的自回歸框架,，統(tǒng)一了多模態(tài)理解和生成。通過(guò)將視覺(jué)編碼分離為“理解”和“生成”兩條路徑,，同時(shí)仍采用單一的Transformer架構(gòu)進(jìn)行處理,，解決了以往方法的局限性。這種分離不僅緩解了視覺(jué)編碼器在理解和生成中的角色沖突,，還提升了框架的靈活性,。

從報(bào)告給出的數(shù)據(jù)來(lái)看，在部分文生圖基準(zhǔn)測(cè)試中,，Janus-Pro 70億參數(shù)模型的表現(xiàn)優(yōu)于OpenAI的DALL-E 3和Stability AI的Stable Diffusion 3-Medium等模型,。盡管DALL-E 3是OpenAI在2023年發(fā)布的一款老模型，而Janus Pro目前只能分析和生成規(guī)格較小的圖像（384 x 384）,，但其在如此緊湊的模型尺寸中依然展現(xiàn)了令人印象深刻的性能。

技術(shù)報(bào)告顯示,，在視覺(jué)生成方面,，Janus-Pro通過(guò)添加7200萬(wàn)張高質(zhì)量合成圖像，使得在統(tǒng)一預(yù)訓(xùn)練階段真實(shí)數(shù)據(jù)與合成數(shù)據(jù)的比例達(dá)到1:1，實(shí)現(xiàn)了更具視覺(jué)吸引力和穩(wěn)定性的圖像輸出,。在多模態(tài)理解的訓(xùn)練數(shù)據(jù)方面,，新模型參考了DeepSeek VL2并增加了大約9000萬(wàn)個(gè)樣本。

作為一個(gè)多模態(tài)模型,，Janus-Pro不僅可以“文生圖”,，還能對(duì)圖片進(jìn)行描述，識(shí)別地標(biāo)景點(diǎn)（例如杭州的西湖）,，識(shí)別圖像中的文字,，并能對(duì)圖片中的知識(shí)（例如“貓和老鼠”蛋糕）進(jìn)行介紹。公司在報(bào)告中展示了更多圖像生成的案例,。

(責(zé)任編輯：于浩淙 zx0176)

關(guān)閉

DeepSeek深夜發(fā)布多模態(tài)大模型 超越DALL-E 3

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

DeepSeek深夜發(fā)布多模態(tài)大模型超越DALL-E 3