大模型集體失智:9.11和9.9哪個大,,幾乎全翻車了
近期,一個看似簡單的數(shù)學問題挑戰(zhàn)了眾多前沿的人工智能大模型,,引發(fā)了業(yè)界的關(guān)注。問題本身并不復雜:9.11和9.9哪個數(shù)字更大,?然而,,在第一財經(jīng)記者的測試中,即便是先進的AI系統(tǒng)也出現(xiàn)了分歧,。在12款接受測試的大模型中,,只有阿里通義千問、百度文心一言,、Minimax和騰訊元寶給出了正確的答案,,剩余八款模型,包括知名的ChatGPT-4o等,,則在這個基礎數(shù)學問題上栽了跟頭,。
這些出錯的大模型大多陷入了比較小數(shù)點后數(shù)字的誤區(qū),誤以為9.11大于9.9,。即使記者明確指出是在數(shù)學的語境下進行比較,,類似ChatGPT這樣的頂尖大模型也未能避免錯誤。這揭示了長久以來大模型在處理數(shù)學問題上的不足,,反映出它們的設計更偏向于文字處理而非數(shù)字邏輯,。
該現(xiàn)象的起因可追溯至一檔綜藝節(jié)目中的投票率比較,觀眾對13.8%與13.11%的大小產(chǎn)生爭議,,進而引發(fā)了公眾對AI處理此類基本數(shù)學問題能力的好奇和測試,。測試結(jié)果顯示,許多AI在面對這類基礎數(shù)學問題時顯得力不從心,,盡管它們在復雜的語言任務上表現(xiàn)出色,。
探究其背后的原因,專家們指出,,生成式語言模型的本質(zhì)決定了它們更擅長處理基于文本的關(guān)聯(lián)性任務,,而非數(shù)學所需的邏輯推理和精確計算。語言模型通過學習海量文本數(shù)據(jù)來預測下一個詞,,這使得它們在文學創(chuàng)作上能夠展現(xiàn)出接近人類的水平,,但在需要嚴謹邏輯和抽象思維的數(shù)學領域,卻顯得力有未逮,。此外,,數(shù)字處理時的分詞問題也是導致錯誤的一個技術(shù)因素,現(xiàn)有分詞器往往沒有針對數(shù)學計算進行優(yōu)化,,可能導致數(shù)字被錯誤分割,,影響模型的理解,。
近期,,一個看似簡單的數(shù)學問題挑戰(zhàn)了眾多先進的人工智能大模型,引發(fā)了業(yè)界關(guān)注
2024-07-19 08:05:47北京網(wǎng)友測試教育大模型9.9比9.11大恒大“擔保人”,果然翻車了普華永道回應被指審計恒大失?。翰粚?已經(jīng)采取應對措施還記得大明湖畔的夏雨荷嗎,?哦不,還記得之前我寫的罰死那個恒大的“擔保人”嗎,?對,,我說的就是普華永道。
2024-04-16 10:57:14恒大“擔保人”提及realme手機,,大家的第一印象是什么?是高性價比,,還是引領潮流的設計,?如同近期與一加,、紅米等品牌探討的趨勢一樣,realme發(fā)布新機的速度也圍繞著“高效”二字
2024-06-08 15:25:53銷量暴跌