大模型測不出9.11和9.9哪個大
近期,,一些主流人工智能模型在處理看似簡單的數(shù)學對比問題時,意外地出現(xiàn)了集體失誤,。問題聚焦于“9.11和9.9哪一個更大”,,即便是強大的GPT-4o以及谷歌的Gemini Advanced付費版等先進模型,都堅持認為9.11大于9.9,。更有甚者,,新晉的人工智能Claude 3.5 Sonnet還提供了一套看似合理卻錯誤的計算邏輯,通過將數(shù)字分解為小數(shù)部分進行比較,,最終得出了不正確的結論,。大模型測不出9.11和9.9哪個大,!
這一現(xiàn)象最初由Riley Goodside發(fā)現(xiàn),他作為提示詞工程師,,在與GPT-4o的交互中注意到了這一異常,。在嘗試變換提問方式,甚至明確指定比較實數(shù)后,,多數(shù)模型仍未能糾正這一基本的數(shù)學判斷,。有趣的是,當提問的順序被調(diào)整后,,某些AI模型竟然能夠正確作答,,揭示了它們對于詞序的高度敏感性。
針對這一現(xiàn)象,,有觀察者推測,AI在沒有明確指令指示其進行算術比較時,,可能會誤解問題的意圖,,從而產(chǎn)生不合邏輯的答案。部分原因歸咎于大模型處理文本的token化方法,,其中9.11中的“11”被錯誤地賦予了比9更高的權重,,導致整體比較失準。
實驗還擴展到了國產(chǎn)大模型,,結果顯示類似的問題同樣存在,,盡管也有如騰訊的元寶和字節(jié)跳動的豆包等模型能夠正確處理并給出合理的解釋。深入分析揭示,,當明確告知AI這是關于雙精度浮點數(shù)的比較后,,它們通常能夠得出正確的答案,這凸顯了在特定情境下引導AI注意力機制的重要性,。
此外,,有討論指出AI訓練數(shù)據(jù)中可能缺乏基礎數(shù)學比較的實例,而對復雜或特定格式(如書籍章節(jié)編號)的頻繁接觸,,可能導致了這一類混淆,。這不僅反映了當前AI理解能力的局限性,也引發(fā)了關于如何優(yōu)化提問策略以引導AI正確解析問題的探討,。
近期,,一個看似簡單的數(shù)學問題挑戰(zhàn)了眾多先進的人工智能大模型,,引發(fā)了業(yè)界關注
2024-07-19 08:05:47北京網(wǎng)友測試教育大模型9.9比9.11大最近,,《歌手》節(jié)目里發(fā)生了一件有趣的事:孫楠與一位外籍歌手的得分異常接近,,這一微小差距激發(fā)了網(wǎng)友們對數(shù)字13.8和13.11大小比較的熱烈討論
2024-07-15 08:25:2713.8和13.11哪個大?5月15日,字節(jié)跳動在火山引擎原動力大會上揭曉了豆包大模型
2024-05-15 17:20:28字節(jié)大模型比行業(yè)價格低99%