就在DeepSeek在華爾街和應(yīng)用下載榜上引起轟動(dòng)的同時(shí),,深度求索公司在除夕夜再次推出了新的產(chǎn)品。1月28日凌晨,,DeepSeek在Hugging Face平臺(tái)上發(fā)布了全新升級(jí)的多模態(tài)大模型Janus-Pro 7B和1.5B版本,,這是對(duì)去年10月發(fā)布的基礎(chǔ)版模型的一次迭代升級(jí)。
根據(jù)技術(shù)報(bào)告,,70億參數(shù)版本的Janus-Pro在多項(xiàng)文生圖基準(zhǔn)測試中表現(xiàn)出色,,不僅超過了OpenAI的DALL-E 3,還優(yōu)于Stability AI最新推出的Stable Diffusion 3-Medium模型,。15億和70億參數(shù)量級(jí)使得該模型可以在普通個(gè)人電腦上本地運(yùn)行,,并采用MIT開源協(xié)議,允許商業(yè)場景下的無限制應(yīng)用,。
從技術(shù)架構(gòu)來看,,通過優(yōu)化訓(xùn)練策略和1.6億樣本數(shù)據(jù)集的支持,Janus-Pro在短提示圖像生成領(lǐng)域展現(xiàn)出了出色的穩(wěn)定性和質(zhì)量,,解決了以往大模型在短提示生成時(shí)容易出錯(cuò)的問題,。官方對(duì)比圖顯示,新版模型在圖像細(xì)節(jié)呈現(xiàn)和語義理解方面較前代產(chǎn)品有了明顯提升,。
為了驗(yàn)證其實(shí)力,,進(jìn)行了幾項(xiàng)實(shí)測。首先是視覺理解測試,,Janus-Pro成功識(shí)別出一張圖片中的波音787型客機(jī),,并且在背景有干擾因素的情況下,還能根據(jù)涂裝判斷出該航空公司為全日空,。面對(duì)帶有惡趣味的梗圖,,Janus-Pro也能準(zhǔn)確理解其含義,將“分離式視覺編碼”比喻為強(qiáng)壯的健美狗,,而“單一視覺編碼器”則被比喻為瘦弱的狗,。此外,Janus-Pro在地標(biāo)識(shí)別方面也表現(xiàn)出色,。
接下來是文生圖測試,。面對(duì)“畫一個(gè)漂亮的小女孩”的短提示,Janus-Pro與其他大模型如DALL·E3和Grok一樣表現(xiàn)突出,都能很好地處理人物面部的細(xì)節(jié),。然而,,在進(jìn)階版“三日凌空”的刻畫中,Janus-Pro生成了一幅與語義完全不同的場景,。專家分析認(rèn)為,,由于輸入分辨率被限制在384×384,影響了模型在OCR等需要精細(xì)識(shí)別任務(wù)上的表現(xiàn),。較低的分辨率以及視覺Token編碼器引入的重建損失,,導(dǎo)致生成的圖像細(xì)節(jié)表現(xiàn)不足,,有時(shí)還會(huì)導(dǎo)致語義理解失敗,。
盡管存在一些不足,但Janus-Pro仍然受到了廣泛歡迎,。GitHub數(shù)據(jù)顯示,,該模型開源24小時(shí)內(nèi)就獲得了超過3000次星標(biāo),并衍生出包括Stable Diffusion插件,、Photoshop擴(kuò)展在內(nèi)的7個(gè)社區(qū)項(xiàng)目,。開源社區(qū)代表張?zhí)煲肀硎荆珼eepSeek一貫的開源策略讓開發(fā)者可以無顧慮地將其集成到商業(yè)產(chǎn)品中,,這可能會(huì)催生新一代AI藝術(shù)創(chuàng)作工具,。