就在DeepSeek在華爾街和應(yīng)用下載榜上引起轟動的同時,,深度求索公司在除夕夜再次推出了新的產(chǎn)品,。1月28日凌晨,,DeepSeek在Hugging Face平臺上發(fā)布了全新升級的多模態(tài)大模型Janus-Pro 7B和1.5B版本,這是對去年10月發(fā)布的基礎(chǔ)版模型的一次迭代升級,。
根據(jù)技術(shù)報告,70億參數(shù)版本的Janus-Pro在多項文生圖基準測試中表現(xiàn)出色,,不僅超過了OpenAI的DALL-E 3,還優(yōu)于Stability AI最新推出的Stable Diffusion 3-Medium模型,。15億和70億參數(shù)量級使得該模型可以在普通個人電腦上本地運行,并采用MIT開源協(xié)議,,允許商業(yè)場景下的無限制應(yīng)用。
從技術(shù)架構(gòu)來看,,通過優(yōu)化訓(xùn)練策略和1.6億樣本數(shù)據(jù)集的支持,Janus-Pro在短提示圖像生成領(lǐng)域展現(xiàn)出了出色的穩(wěn)定性和質(zhì)量,,解決了以往大模型在短提示生成時容易出錯的問題,。官方對比圖顯示,新版模型在圖像細節(jié)呈現(xiàn)和語義理解方面較前代產(chǎn)品有了明顯提升,。
為了驗證其實力,進行了幾項實測,。首先是視覺理解測試,,Janus-Pro成功識別出一張圖片中的波音787型客機,并且在背景有干擾因素的情況下,,還能根據(jù)涂裝判斷出該航空公司為全日空,。面對帶有惡趣味的梗圖,Janus-Pro也能準確理解其含義,,將“分離式視覺編碼”比喻為強壯的健美狗,,而“單一視覺編碼器”則被比喻為瘦弱的狗,。此外,,Janus-Pro在地標識別方面也表現(xiàn)出色。