4月5日,,美國科技巨頭Meta宣布推出新一代開源大模型Llama 4。該模型有兩個混合專家架構(gòu)的版本,,分別為Scout和Maverick,,而更強大的Llama 4 Behemoth仍在訓(xùn)練中,。據(jù)稱,,Llama 4在多個基準(zhǔn)測試中表現(xiàn)出色,,尤其是Behemoth,,在多項測試中超越了GPT-4.5,、Claude Sonnet 3.7和Gemini 2.0 Pro等頂尖封閉模型。
然而,,模型發(fā)布后不久,開發(fā)者實測發(fā)現(xiàn)其實際效果并不如宣傳中的那樣出色,,甚至存在諸多問題,。有開發(fā)者質(zhì)疑Meta在評測基準(zhǔn)上進行了“量身定制”訓(xùn)練以提升排名。知名科技媒體TechCrunch也指出,,Meta新AI模型的性能測試具有一定的誤導(dǎo)性,。
Meta對此回應(yīng)稱,,相關(guān)說法毫無事實依據(jù),。Llama 4 Scout擁有170億活躍參數(shù)和16個專家模塊,提供長達1000萬tokens上下文窗口,。Llama 4 Maverick同樣擁有170億活躍參數(shù),,但專家模塊數(shù)量提升至128個,。在多項主流基準(zhǔn)測試中,Maverick表現(xiàn)優(yōu)異,,尤其在推理和編碼方面可以與DeepSeek V3媲美,。Llama 4 Behemoth則擁有2880億活躍參數(shù)和16個專家模塊,在多項基準(zhǔn)測試中超越了行業(yè)頂尖模型,。
盡管官方聲稱Llama 4在編程、數(shù)學(xué),、創(chuàng)意寫作等任務(wù)中表現(xiàn)出色,,但開發(fā)者實測結(jié)果卻顯示其在這些領(lǐng)域的表現(xiàn)欠佳。風(fēng)險投資人迪迪·達斯直言Llama 4是一個糟糕的編程模型,,并指出在KCORES基準(zhǔn)測試中,,Llama 4落后于GPT-4o、Grok 3,、DeepSeek-V3等模型,。此外,Llama 4在aider多語言編碼基準(zhǔn)測試中的得分僅為16%,。
大模型競技場官方也指出,Meta在排行榜上使用的并非HuggingFace上的Llama 4版本,,而是針對人類偏好進行優(yōu)化的定制模型,。這使得開發(fā)者難以準(zhǔn)確預(yù)估模型在實際應(yīng)用場景中的表現(xiàn)。
與此同時,,一位自稱參與Llama 4訓(xùn)練的內(nèi)部員工爆料稱,公司在訓(xùn)練過程中存在作弊行為,。不過,,多位Meta員工對此進行了辟謠。Meta生成式AI副總裁艾哈邁德·阿爾·達赫勒公開表示,,相關(guān)說法毫無事實依據(jù),,并解釋稱部分用戶遇到的質(zhì)量不穩(wěn)定問題將在后續(xù)得到解決。Meta首席AI科學(xué)家Yann LeCun也為此發(fā)聲支持,。
2月26日,,中國圍棋協(xié)會發(fā)布通報,,確認(rèn)職業(yè)棋手秦思玥在比賽中藏匿手機并作弊,。協(xié)會決定撤銷其職業(yè)段位,取消比賽成績,,并對其實施8年禁賽的處罰
2025-02-28 11:45:5919歲棋手用AI比賽被撤銷段位