4月5日,,美國科技巨頭Meta宣布推出新一代開源大模型Llama 4,。該模型有兩個(gè)混合專家架構(gòu)的版本,,分別為Scout和Maverick,,而更強(qiáng)大的Llama 4 Behemoth仍在訓(xùn)練中,。據(jù)稱,,Llama 4在多個(gè)基準(zhǔn)測試中表現(xiàn)出色,,尤其是Behemoth,在多項(xiàng)測試中超越了GPT-4.5,、Claude Sonnet 3.7和Gemini 2.0 Pro等頂尖封閉模型,。
然而,,模型發(fā)布后不久,,開發(fā)者實(shí)測發(fā)現(xiàn)其實(shí)際效果并不如宣傳中的那樣出色,甚至存在諸多問題,。有開發(fā)者質(zhì)疑Meta在評測基準(zhǔn)上進(jìn)行了“量身定制”訓(xùn)練以提升排名,。知名科技媒體TechCrunch也指出,Meta新AI模型的性能測試具有一定的誤導(dǎo)性,。
Meta對此回應(yīng)稱,相關(guān)說法毫無事實(shí)依據(jù),。Llama 4 Scout擁有170億活躍參數(shù)和16個(gè)專家模塊,,提供長達(dá)1000萬tokens上下文窗口。Llama 4 Maverick同樣擁有170億活躍參數(shù),,但專家模塊數(shù)量提升至128個(gè),。在多項(xiàng)主流基準(zhǔn)測試中,Maverick表現(xiàn)優(yōu)異,尤其在推理和編碼方面可以與DeepSeek V3媲美,。Llama 4 Behemoth則擁有2880億活躍參數(shù)和16個(gè)專家模塊,在多項(xiàng)基準(zhǔn)測試中超越了行業(yè)頂尖模型,。
盡管官方聲稱Llama 4在編程、數(shù)學(xué),、創(chuàng)意寫作等任務(wù)中表現(xiàn)出色,,但開發(fā)者實(shí)測結(jié)果卻顯示其在這些領(lǐng)域的表現(xiàn)欠佳。風(fēng)險(xiǎn)投資人迪迪·達(dá)斯直言Llama 4是一個(gè)糟糕的編程模型,,并指出在KCORES基準(zhǔn)測試中,,Llama 4落后于GPT-4o、Grok 3,、DeepSeek-V3等模型,。此外,Llama 4在aider多語言編碼基準(zhǔn)測試中的得分僅為16%,。