谷歌DeepMind捅破AI數(shù)學(xué)推理上限
7月26日,,谷歌DeepMind團(tuán)隊公布了一項研究進(jìn)展,,他們在博客中介紹,,自主研發(fā)的AlphaProof和AlphaGeometry 2兩款A(yù)I模型成功挑戰(zhàn)了數(shù)學(xué)領(lǐng)域的高級邏輯難題,,達(dá)到了國際數(shù)學(xué)奧林匹克競賽(IMO)銀牌水平的解題能力。
AlphaProof是運用強化學(xué)習(xí)構(gòu)建的創(chuàng)新數(shù)學(xué)推理系統(tǒng),,而AlphaGeometry 2則是對原有幾何問題求解系統(tǒng)的優(yōu)化升級,。通過這兩個模型的協(xié)同工作,DeepMind團(tuán)隊在本年度IMO的6個賽題中攻克了4題,,首次與IMO銀牌獲獎?wù)叩慕忸}成績比肩,。
為了確保評估的公正性和專業(yè)性,DeepMind組建了一個由頂尖數(shù)學(xué)家構(gòu)成的評審小組,,成員包括IMO金牌得主及菲爾茲獎獲得者蒂莫西·高爾斯教授,,以及兩度摘得IMO金牌、現(xiàn)任IMO 2024年問題挑選委員會主席的約瑟夫-邁爾斯博士,。他們依據(jù)IMO的標(biāo)準(zhǔn)對AI解題成果進(jìn)行了評判,。
AI模型的運作機制涉及將IMO的賽題轉(zhuǎn)化為模型可解讀的數(shù)學(xué)表述。具體而言,,AlphaProof專注于代數(shù)和數(shù)論問題,,不僅找出了兩個問題的答案,還完成了證明,,其中一個被證實是最具挑戰(zhàn)性的題目,,僅本屆IMO中有5名選手成功解答。AlphaGeometry 2則專注于幾何題,,但在組合問題上未能找到解決方案,。
按照IMO的計分制度,每題滿分為7分,,總分42分,。DeepMind的這套系統(tǒng)總共獲得了28分,意味著每道被解決的問題均得到了滿分,,這一成績等同于銀牌選手的頂級表現(xiàn),。盡管如此,2024年金獎的最低分?jǐn)?shù)線設(shè)定在29分,,當(dāng)年共有58名參賽者在609人的激烈競爭中贏得了金獎殊榮,。
一些簡單的數(shù)學(xué)問題近期挑戰(zhàn)了一群先進(jìn)的AI大模型,,引發(fā)了業(yè)界關(guān)注
2024-07-17 13:26:31一道小學(xué)題難倒海內(nèi)外8個大模型