北京網(wǎng)友測(cè)試教育大模型9.9比9.11大 8大模型犯錯(cuò)揭示短板

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2024-07-19 08:05:47 海報(bào)新聞

北京網(wǎng)友測(cè)試教育大模型9.9比9.11大

近期,，一個(gè)看似簡(jiǎn)單的數(shù)學(xué)問(wèn)題挑戰(zhàn)了眾多先進(jìn)的人工智能大模型,，引發(fā)了業(yè)界關(guān)注,。問(wèn)題本身并不復(fù)雜：9.11和9.9哪個(gè)數(shù)字更大？然而,，在第一財(cái)經(jīng)進(jìn)行的測(cè)試中,，即便是部分知名大模型，如阿里通義千問(wèn),、百度文心一言,、Minimax及騰訊元寶，能夠給出正確答案,，仍有包括ChatGPT-4o在內(nèi)的8個(gè)大模型給出了錯(cuò)誤判斷,，它們大多錯(cuò)誤地對(duì)比了小數(shù)點(diǎn)后的數(shù)字,。北京網(wǎng)友測(cè)試教育大模型9.9比9.11大,！

這種情況暴露了大模型在處理數(shù)學(xué)問(wèn)題時(shí)的局限性，盡管它們?cè)谖淖痔幚砗湍承┨囟ㄈ蝿?wù)上表現(xiàn)出色,，但數(shù)學(xué)能力卻顯得薄弱,。部分行業(yè)專家指出，這可能源于大模型的設(shè)計(jì)更偏向于模擬人類的語(yǔ)言思維模式,，而非邏輯嚴(yán)謹(jǐn)?shù)臄?shù)字處理方式,。生成式語(yǔ)言模型在學(xué)習(xí)過(guò)程中更多地掌握了語(yǔ)言的關(guān)聯(lián)性，而非數(shù)學(xué)所需的因果邏輯和嚴(yán)謹(jǐn)推理,。

此次事件起因于一檔綜藝節(jié)目中的投票率比較,，進(jìn)而引發(fā)了公眾對(duì)AI數(shù)學(xué)能力的討論。測(cè)試顯示,，即便是在明確了數(shù)學(xué)語(yǔ)境的前提下,，一些大模型依然未能正確解答。有趣的是,，當(dāng)記者對(duì)錯(cuò)誤答案提出質(zhì)疑后,，多數(shù)大模型能自我糾正，承認(rèn)之前的失誤并給出正確答案,，顯示出一定的自我調(diào)整能力,。

長(zhǎng)期以來(lái)，大模型在數(shù)學(xué)處理上的不足已不是新鮮事,。即便是最先進(jìn)的模型,，如GPT-4，在面對(duì)高考級(jí)別的數(shù)學(xué)試題時(shí)也表現(xiàn)不佳,，顯示出在數(shù)學(xué)邏輯和復(fù)雜推理上的缺陷,。這不僅僅是數(shù)字識(shí)別或計(jì)算的問(wèn)題，更是模型缺乏數(shù)學(xué)思維和靈活應(yīng)用公式的能力體現(xiàn),。

為改善這一狀況,，研究者們正探索通過(guò)針對(duì)性的語(yǔ)料訓(xùn)練來(lái)提升大模型的理科能力，特別是加強(qiáng)其在數(shù)學(xué)推理上的訓(xùn)練,。未來(lái),，構(gòu)造型數(shù)據(jù)的使用可能會(huì)成為關(guān)鍵，即通過(guò)系統(tǒng)地設(shè)計(jì)包含數(shù)學(xué)問(wèn)題解決過(guò)程的數(shù)據(jù)來(lái)引導(dǎo)模型學(xué)習(xí),，而非僅僅依賴互聯(lián)網(wǎng)上的既有文本數(shù)據(jù),。這對(duì)于推動(dòng)大模型在金融、工業(yè)等高要求領(lǐng)域的應(yīng)用至關(guān)重要,，因?yàn)樵谶@些場(chǎng)景下,，數(shù)學(xué)的準(zhǔn)確性和邏輯推理的可靠性是不可或缺的。

(責(zé)任編輯：盧其龍 CN070)

關(guān)閉

北京網(wǎng)友測(cè)試教育大模型9.9比9.11大 8大模型犯錯(cuò)揭示短板

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)