一道小學(xué)題難倒海內(nèi)外8個(gè)大模型
一些簡(jiǎn)單的數(shù)學(xué)問(wèn)題近期挑戰(zhàn)了一群先進(jìn)的AI大模型,,引發(fā)了業(yè)界關(guān)注。在對(duì)比9.11與9.9的大小時(shí),,盡管阿里通義千問(wèn),、百度文心一言、Minimax及騰訊元寶能夠給出正確答案,,但包括ChatGPT-4o在內(nèi)的其他8個(gè)知名大模型卻犯下了錯(cuò)誤,它們大多基于小數(shù)點(diǎn)后的數(shù)字進(jìn)行直接比較,,忽略了整數(shù)部分的重要性。這一現(xiàn)象反映出了當(dāng)前大模型在數(shù)學(xué)處理能力上的局限,。
該話題起因于一個(gè)綜藝節(jié)目的投票率爭(zhēng)議,進(jìn)而激發(fā)了公眾對(duì)AI處理基礎(chǔ)數(shù)學(xué)問(wèn)題能力的好奇與探討,。測(cè)試結(jié)果顯示,,即便是調(diào)整提問(wèn)語(yǔ)境明確為數(shù)學(xué)領(lǐng)域,部分大模型仍無(wú)法給出準(zhǔn)確答案,。不過(guò),,當(dāng)被指出錯(cuò)誤后,,大多數(shù)模型能夠自我糾正并提供正確解答,顯示出一定的學(xué)習(xí)與適應(yīng)能力,。
這一現(xiàn)象背后的根源在于大模型的設(shè)計(jì)偏向于處理語(yǔ)言和文本數(shù)據(jù),而非數(shù)學(xué)運(yùn)算和邏輯推理,。語(yǔ)言模型擅長(zhǎng)捕捉文本間的關(guān)聯(lián)性,,這使得它們?cè)谖膶W(xué)創(chuàng)作等方面表現(xiàn)出色,但面對(duì)需要嚴(yán)密邏輯推理的數(shù)學(xué)問(wèn)題時(shí)則顯得力不從心,。專家指出,,要提高大模型的理科能力,除了豐富它們的世界知識(shí)外,,還需要通過(guò)特定的訓(xùn)練使其掌握推理演繹技能,。
另一個(gè)技術(shù)挑戰(zhàn)涉及到分詞器(Tokenizer)對(duì)數(shù)字的處理方式,它可能錯(cuò)誤地將連續(xù)數(shù)字分割,,影響模型對(duì)數(shù)值的正確理解,。盡管如此,隨著技術(shù)的進(jìn)步和針對(duì)性語(yǔ)料的增加,,模型在數(shù)學(xué)處理方面的能力有望逐步提升,。
大模型的復(fù)雜推理能力是其在金融、工業(yè)等領(lǐng)域?qū)崿F(xiàn)可靠應(yīng)用的關(guān)鍵,。未來(lái),,如何在模型訓(xùn)練中融入更多結(jié)構(gòu)化、專業(yè)化的數(shù)據(jù),,特別是在數(shù)學(xué)和邏輯推理方面的訓(xùn)練,,將是提升大模型實(shí)用價(jià)值和信賴度的重要方向,。
一道小學(xué)題難倒海內(nèi)外8個(gè)大模型,。
6月7日,,阿里云在技術(shù)博客上宣布了一個(gè)重要進(jìn)展:他們發(fā)布了名為Qwen2-72B的開(kāi)源模型,這款模型在全球范圍內(nèi)以其卓越的性能脫穎而出
2024-06-07 10:49:47阿里云發(fā)布開(kāi)源模型Qwen2