一道小學(xué)題難倒海內(nèi)外8個大模型 AI的數(shù)學(xué)困境

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2024-07-17 13:26:31 第一財(cái)經(jīng)

一道小學(xué)題難倒海內(nèi)外8個大模型

一些簡單的數(shù)學(xué)問題近期挑戰(zhàn)了一群先進(jìn)的AI大模型,，引發(fā)了業(yè)界關(guān)注,。在對比9.11與9.9的大小時，盡管阿里通義千問,、百度文心一言,、Minimax及騰訊元寶能夠給出正確答案，但包括ChatGPT-4o在內(nèi)的其他8個知名大模型卻犯下了錯誤,，它們大多基于小數(shù)點(diǎn)后的數(shù)字進(jìn)行直接比較,，忽略了整數(shù)部分的重要性。這一現(xiàn)象反映出了當(dāng)前大模型在數(shù)學(xué)處理能力上的局限,。

該話題起因于一個綜藝節(jié)目的投票率爭議,，進(jìn)而激發(fā)了公眾對AI處理基礎(chǔ)數(shù)學(xué)問題能力的好奇與探討。測試結(jié)果顯示,，即便是調(diào)整提問語境明確為數(shù)學(xué)領(lǐng)域,，部分大模型仍無法給出準(zhǔn)確答案。不過,，當(dāng)被指出錯誤后,，大多數(shù)模型能夠自我糾正并提供正確解答，顯示出一定的學(xué)習(xí)與適應(yīng)能力,。

這一現(xiàn)象背后的根源在于大模型的設(shè)計(jì)偏向于處理語言和文本數(shù)據(jù),，而非數(shù)學(xué)運(yùn)算和邏輯推理。語言模型擅長捕捉文本間的關(guān)聯(lián)性,，這使得它們在文學(xué)創(chuàng)作等方面表現(xiàn)出色,，但面對需要嚴(yán)密邏輯推理的數(shù)學(xué)問題時則顯得力不從心。專家指出,，要提高大模型的理科能力,，除了豐富它們的世界知識外，還需要通過特定的訓(xùn)練使其掌握推理演繹技能,。

另一個技術(shù)挑戰(zhàn)涉及到分詞器（Tokenizer）對數(shù)字的處理方式,，它可能錯誤地將連續(xù)數(shù)字分割，影響模型對數(shù)值的正確理解,。盡管如此,，隨著技術(shù)的進(jìn)步和針對性語料的增加,，模型在數(shù)學(xué)處理方面的能力有望逐步提升,。

大模型的復(fù)雜推理能力是其在金融、工業(yè)等領(lǐng)域?qū)崿F(xiàn)可靠應(yīng)用的關(guān)鍵,。未來,，如何在模型訓(xùn)練中融入更多結(jié)構(gòu)化,、專業(yè)化的數(shù)據(jù)，特別是在數(shù)學(xué)和邏輯推理方面的訓(xùn)練,，將是提升大模型實(shí)用價值和信賴度的重要方向,。

一道小學(xué)題難倒海內(nèi)外8個大模型。

(責(zé)任編輯：盧其龍 CN070)

關(guān)閉

一道小學(xué)題難倒海內(nèi)外8個大模型 AI的數(shù)學(xué)困境

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)