中國(guó)公司DeepSeek在華爾街周一緊張?jiān)u估“DeepSeek風(fēng)暴”時(shí),,推出了新產(chǎn)品:開(kāi)源的多模態(tài)大模型Janus-Pro,。這款模型在圖像生成基準(zhǔn)測(cè)試中超越了OpenAI的DALL-E 3。
除夕夜前夕,,DeepSeek工程師們?cè)凇氨П槨逼脚_(tái)上發(fā)布了Janus Pro 7B和1.5B模型,,這是對(duì)去年10月發(fā)布的Janus模型的升級(jí)。這兩個(gè)模型分別具有15億和70億參數(shù)量,,可以在消費(fèi)級(jí)電腦上本地運(yùn)行,。與之前的版本一樣,Janus Pro采用MIT許可證,,在商用方面沒(méi)有限制,。
據(jù)介紹,Janus-Pro采用了新穎的自回歸框架,,統(tǒng)一了多模態(tài)理解和生成,。通過(guò)將視覺(jué)編碼分為“理解”和“生成”兩條路徑,并使用單一的Transformer架構(gòu)處理,,解決了以往方法的局限性。這種設(shè)計(jì)不僅緩解了視覺(jué)編碼器在理解和生成中的角色沖突,,還提高了框架的靈活性,。
從報(bào)告給出的數(shù)據(jù)來(lái)看,Janus-Pro 70億參數(shù)模型在部分文生圖基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)于OpenAI的DALL-E 3和Stability AI的Stable Diffusion 3-Medium,。盡管DALL-E 3是2023年發(fā)布的老模型,,且Janus Pro目前只能分析和生成較小規(guī)格的圖像(384 x 384),但其性能仍然令人印象深刻,。
技術(shù)報(bào)告顯示,,Janus-Pro在視覺(jué)生成方面通過(guò)添加7200萬(wàn)張高質(zhì)量合成圖像,使得真實(shí)數(shù)據(jù)與合成數(shù)據(jù)的比例達(dá)到1:1,,從而實(shí)現(xiàn)更具視覺(jué)吸引力和穩(wěn)定性的圖像輸出,。此外,新模型在多模態(tài)理解的訓(xùn)練數(shù)據(jù)方面參考了DeepSeek VL2并增加了約9000萬(wàn)個(gè)樣本,。
作為多模態(tài)模型,,Janus-Pro不僅可以“文生圖”,還能對(duì)圖片進(jìn)行描述,、識(shí)別地標(biāo)景點(diǎn)(如杭州西湖),、識(shí)別圖像中的文字,,并能介紹圖片中的知識(shí)(例如“貓和老鼠”蛋糕)。公司也在報(bào)告中展示了更多圖像生成的案例,。
近日,美國(guó)多名官員對(duì)DeepSeek的影響表示擔(dān)憂,,稱其為“偷竊”,,并正在對(duì)其展開(kāi)國(guó)家安全調(diào)查
2025-01-31 11:49:55周鴻祎