LIama 4疑似作弊,，都怪Meta把牛皮吹破了性能測試遭質(zhì)疑

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-04-12 13:03:55 每日經(jīng)濟新聞

4月5日,，美國科技巨頭Meta宣布推出新一代開源大模型Llama 4。該模型有兩個混合專家架構(gòu)的版本,，分別為Scout和Maverick,，而更強大的Llama 4 Behemoth仍在訓(xùn)練中,。據(jù)稱,，Llama 4在多個基準(zhǔn)測試中表現(xiàn)出色,，尤其是Behemoth,，在多項測試中超越了GPT-4.5,、Claude Sonnet 3.7和Gemini 2.0 Pro等頂尖封閉模型。

LIama 4疑似作弊,，都怪Meta把牛皮吹破了

然而,，模型發(fā)布后不久，開發(fā)者實測發(fā)現(xiàn)其實際效果并不如宣傳中的那樣出色,，甚至存在諸多問題,。有開發(fā)者質(zhì)疑Meta在評測基準(zhǔn)上進行了“量身定制”訓(xùn)練以提升排名。知名科技媒體TechCrunch也指出,，Meta新AI模型的性能測試具有一定的誤導(dǎo)性,。

LIama 4疑似作弊，都怪Meta把牛皮吹破了性能測試遭質(zhì)疑

Meta對此回應(yīng)稱,，相關(guān)說法毫無事實依據(jù),。Llama 4 Scout擁有170億活躍參數(shù)和16個專家模塊，提供長達1000萬tokens上下文窗口,。Llama 4 Maverick同樣擁有170億活躍參數(shù),，但專家模塊數(shù)量提升至128個,。在多項主流基準(zhǔn)測試中，Maverick表現(xiàn)優(yōu)異,，尤其在推理和編碼方面可以與DeepSeek V3媲美,。Llama 4 Behemoth則擁有2880億活躍參數(shù)和16個專家模塊，在多項基準(zhǔn)測試中超越了行業(yè)頂尖模型,。

LIama 4疑似作弊,，都怪Meta把牛皮吹破了性能測試遭質(zhì)疑

盡管官方聲稱Llama 4在編程、數(shù)學(xué),、創(chuàng)意寫作等任務(wù)中表現(xiàn)出色,，但開發(fā)者實測結(jié)果卻顯示其在這些領(lǐng)域的表現(xiàn)欠佳。風(fēng)險投資人迪迪·達斯直言Llama 4是一個糟糕的編程模型,，并指出在KCORES基準(zhǔn)測試中,，Llama 4落后于GPT-4o、Grok 3,、DeepSeek-V3等模型,。此外，Llama 4在aider多語言編碼基準(zhǔn)測試中的得分僅為16%,。

LIama 4疑似作弊,，都怪Meta把牛皮吹破了性能測試遭質(zhì)疑

大模型競技場官方也指出，Meta在排行榜上使用的并非HuggingFace上的Llama 4版本,，而是針對人類偏好進行優(yōu)化的定制模型,。這使得開發(fā)者難以準(zhǔn)確預(yù)估模型在實際應(yīng)用場景中的表現(xiàn)。

LIama 4疑似作弊,，都怪Meta把牛皮吹破了性能測試遭質(zhì)疑

與此同時,，一位自稱參與Llama 4訓(xùn)練的內(nèi)部員工爆料稱，公司在訓(xùn)練過程中存在作弊行為,。不過,，多位Meta員工對此進行了辟謠。Meta生成式AI副總裁艾哈邁德·阿爾·達赫勒公開表示,，相關(guān)說法毫無事實依據(jù),，并解釋稱部分用戶遇到的質(zhì)量不穩(wěn)定問題將在后續(xù)得到解決。Meta首席AI科學(xué)家Yann LeCun也為此發(fā)聲支持,。

LIama 4疑似作弊,，都怪Meta把牛皮吹破了性能測試遭質(zhì)疑

LIama 4疑似作弊，都怪Meta把牛皮吹破了性能測試遭質(zhì)疑

(責(zé)任編輯：張小花 TT1000)

關(guān)閉

LIama 4疑似作弊,，都怪Meta把牛皮吹破了 性能測試遭質(zhì)疑

相關(guān)新聞

今日熱點

頻道熱點

LIama 4疑似作弊,，都怪Meta把牛皮吹破了性能測試遭質(zhì)疑