清華翟季冬：DeepSeek 百倍算力效能背后的系統(tǒng)革命智者訪談多模態(tài)大模型再升級(jí)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-02-01 13:13:44 網(wǎng)易新聞

就在DeepSeek在華爾街和應(yīng)用下載榜上引起轟動(dòng)的同時(shí),，深度求索公司在除夕夜再次推出了新的產(chǎn)品,。1月28日凌晨，DeepSeek在Hugging Face平臺(tái)上發(fā)布了全新升級(jí)的多模態(tài)大模型Janus-Pro 7B和1.5B版本,，這是對(duì)去年10月發(fā)布的基礎(chǔ)版模型的一次迭代升級(jí),。

根據(jù)技術(shù)報(bào)告，70億參數(shù)版本的Janus-Pro在多項(xiàng)文生圖基準(zhǔn)測試中表現(xiàn)出色,，不僅超過了OpenAI的DALL-E 3,，還優(yōu)于Stability AI最新推出的Stable Diffusion 3-Medium模型。15億和70億參數(shù)量級(jí)使得該模型可以在普通個(gè)人電腦上本地運(yùn)行,，并采用MIT開源協(xié)議,，允許商業(yè)場景下的無限制應(yīng)用。

從技術(shù)架構(gòu)來看,，通過優(yōu)化訓(xùn)練策略和1.6億樣本數(shù)據(jù)集的支持,，Janus-Pro在短提示圖像生成領(lǐng)域展現(xiàn)出了出色的穩(wěn)定性和質(zhì)量，解決了以往大模型在短提示生成時(shí)容易出錯(cuò)的問題,。官方對(duì)比圖顯示,，新版模型在圖像細(xì)節(jié)呈現(xiàn)和語義理解方面較前代產(chǎn)品有了明顯提升。

為了驗(yàn)證其實(shí)力,，進(jìn)行了幾項(xiàng)實(shí)測。首先是視覺理解測試,，Janus-Pro成功識(shí)別出一張圖片中的波音787型客機(jī),，并且在背景有干擾因素的情況下，還能根據(jù)涂裝判斷出該航空公司為全日空,。面對(duì)帶有惡趣味的梗圖,，Janus-Pro也能準(zhǔn)確理解其含義，將“分離式視覺編碼”比喻為強(qiáng)壯的健美狗,，而“單一視覺編碼器”則被比喻為瘦弱的狗,。此外，Janus-Pro在地標(biāo)識(shí)別方面也表現(xiàn)出色,。

接下來是文生圖測試,。面對(duì)“畫一個(gè)漂亮的小女孩”的短提示，Janus-Pro與其他大模型如DALL·E3和Grok一樣表現(xiàn)突出，都能很好地處理人物面部的細(xì)節(jié),。然而,，在進(jìn)階版“三日凌空”的刻畫中，Janus-Pro生成了一幅與語義完全不同的場景,。專家分析認(rèn)為,，由于輸入分辨率被限制在384×384，影響了模型在OCR等需要精細(xì)識(shí)別任務(wù)上的表現(xiàn),。較低的分辨率以及視覺Token編碼器引入的重建損失,，導(dǎo)致生成的圖像細(xì)節(jié)表現(xiàn)不足，有時(shí)還會(huì)導(dǎo)致語義理解失敗,。

盡管存在一些不足,，但Janus-Pro仍然受到了廣泛歡迎。GitHub數(shù)據(jù)顯示,，該模型開源24小時(shí)內(nèi)就獲得了超過3000次星標(biāo),，并衍生出包括Stable Diffusion插件、Photoshop擴(kuò)展在內(nèi)的7個(gè)社區(qū)項(xiàng)目,。開源社區(qū)代表張?zhí)煲肀硎?，DeepSeek一貫的開源策略讓開發(fā)者可以無顧慮地將其集成到商業(yè)產(chǎn)品中，這可能會(huì)催生新一代AI藝術(shù)創(chuàng)作工具,。

(責(zé)任編輯：張蕾)

關(guān)閉

清華翟季冬：DeepSeek 百倍算力效能背后的系統(tǒng)革命 智者訪談 多模態(tài)大模型再升級(jí)

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

清華翟季冬：DeepSeek 百倍算力效能背后的系統(tǒng)革命智者訪談多模態(tài)大模型再升級(jí)