大模型測(cè)不出9.11和9.9哪個(gè)大 AI常識(shí)困境暴露

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2024-07-17 13:58:59 網(wǎng)易

大模型測(cè)不出9.11和9.9哪個(gè)大

近期，一些主流人工智能模型在處理看似簡(jiǎn)單的數(shù)學(xué)對(duì)比問(wèn)題時(shí),，意外地出現(xiàn)了集體失誤,。問(wèn)題聚焦于“9.11和9.9哪一個(gè)更大”，即便是強(qiáng)大的GPT-4o以及谷歌的Gemini Advanced付費(fèi)版等先進(jìn)模型,，都堅(jiān)持認(rèn)為9.11大于9.9,。更有甚者，新晉的人工智能Claude 3.5 Sonnet還提供了一套看似合理卻錯(cuò)誤的計(jì)算邏輯,，通過(guò)將數(shù)字分解為小數(shù)部分進(jìn)行比較,，最終得出了不正確的結(jié)論。大模型測(cè)不出9.11和9.9哪個(gè)大,！

這一現(xiàn)象最初由Riley Goodside發(fā)現(xiàn),，他作為提示詞工程師，在與GPT-4o的交互中注意到了這一異常,。在嘗試變換提問(wèn)方式,，甚至明確指定比較實(shí)數(shù)后，多數(shù)模型仍未能糾正這一基本的數(shù)學(xué)判斷,。有趣的是,，當(dāng)提問(wèn)的順序被調(diào)整后，某些AI模型竟然能夠正確作答,，揭示了它們對(duì)于詞序的高度敏感性,。

針對(duì)這一現(xiàn)象，有觀察者推測(cè),，AI在沒(méi)有明確指令指示其進(jìn)行算術(shù)比較時(shí),，可能會(huì)誤解問(wèn)題的意圖，從而產(chǎn)生不合邏輯的答案,。部分原因歸咎于大模型處理文本的token化方法,，其中9.11中的“11”被錯(cuò)誤地賦予了比9更高的權(quán)重，導(dǎo)致整體比較失準(zhǔn)。

實(shí)驗(yàn)還擴(kuò)展到了國(guó)產(chǎn)大模型,，結(jié)果顯示類(lèi)似的問(wèn)題同樣存在,，盡管也有如騰訊的元寶和字節(jié)跳動(dòng)的豆包等模型能夠正確處理并給出合理的解釋。深入分析揭示,，當(dāng)明確告知AI這是關(guān)于雙精度浮點(diǎn)數(shù)的比較后,，它們通常能夠得出正確的答案，這凸顯了在特定情境下引導(dǎo)AI注意力機(jī)制的重要性,。

此外,，有討論指出AI訓(xùn)練數(shù)據(jù)中可能缺乏基礎(chǔ)數(shù)學(xué)比較的實(shí)例，而對(duì)復(fù)雜或特定格式（如書(shū)籍章節(jié)編號(hào)）的頻繁接觸,，可能導(dǎo)致了這一類(lèi)混淆,。這不僅反映了當(dāng)前AI理解能力的局限性，也引發(fā)了關(guān)于如何優(yōu)化提問(wèn)策略以引導(dǎo)AI正確解析問(wèn)題的探討,。

12 全文共 2 頁(yè)下一頁(yè)

關(guān)閉

大模型測(cè)不出9.11和9.9哪個(gè)大 AI常識(shí)困境暴露

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)