AI水平超過數(shù)學(xué)奧賽金牌得主,。谷歌昨日宣布,其子公司DeepMind開發(fā)的最新AI系統(tǒng)AlphaGeometry2在國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽(IMO)的大規(guī)模幾何題目測(cè)試中,,首次超越了人類金牌得主的水平。研究團(tuán)隊(duì)從2000年至2024年的IMO競(jìng)賽中精選了45道幾何題目,,并轉(zhuǎn)化為50道標(biāo)準(zhǔn)題目,。測(cè)試結(jié)果顯示,AlphaGeometry2成功解答了其中的42道題目,,超過了金牌得主平均40.9分的成績(jī),。
這一突破意義深遠(yuǎn),因?yàn)榻鉀Q具有挑戰(zhàn)性的幾何問題所需的推理能力和策略選擇能力是構(gòu)建下一代通用人工智能的關(guān)鍵要素,。網(wǎng)友對(duì)此表示高度贊賞,,稱其“接近完美”。
DeepMind對(duì)高中數(shù)學(xué)競(jìng)賽的重視源于一個(gè)深層洞察:解決歐幾里得幾何問題的能力可能是構(gòu)建更強(qiáng)大AI系統(tǒng)的關(guān)鍵,。證明數(shù)學(xué)定理需要同時(shí)具備推理能力和在多個(gè)可能步驟中做出選擇的能力,,這些技能將成為未來通用AI模型的重要組成部分。事實(shí)上,,在2024年夏天的一次演示中,,DeepMind將AlphaGeometry2與數(shù)學(xué)形式推理AI模型AlphaProof結(jié)合,成功解決了當(dāng)年IMO競(jìng)賽6道題目中的4道,。
技術(shù)架構(gòu)方面,,AlphaGeometry2采用了一種混合方案,結(jié)合了谷歌Gemini系列的語(yǔ)言模型和專門的符號(hào)運(yùn)算引擎,。解題過程中,,Gemini模型負(fù)責(zé)預(yù)測(cè)解題可能需要的幾何構(gòu)造,而符號(hào)引擎則基于嚴(yán)格的數(shù)學(xué)規(guī)則進(jìn)行推導(dǎo),。兩個(gè)模塊通過并行搜索算法協(xié)同工作,,將發(fā)現(xiàn)的有用信息存儲(chǔ)在共享知識(shí)庫(kù)中。當(dāng)系統(tǒng)能夠?qū)emini模型的建議與符號(hào)引擎的已知原理結(jié)合,,得出完整證明時(shí),,即認(rèn)為完成了問題求解。
為克服幾何訓(xùn)練數(shù)據(jù)匱乏的問題,,研究團(tuán)隊(duì)自主生成了超過3億個(gè)不同復(fù)雜度的定理和證明用于訓(xùn)練,。這種大規(guī)模的合成數(shù)據(jù)訓(xùn)練方法為AI在特定領(lǐng)域?qū)崿F(xiàn)突破提供了新的范例。盡管如此,,AlphaGeometry2仍存在明顯局限,,無法處理包含可變點(diǎn)數(shù)、非線性方程和不等式的問題,。在更具挑戰(zhàn)性的29道IMO候選題中,,系統(tǒng)僅能解決20道,。
這一突破引發(fā)了對(duì)AI發(fā)展路徑的深入思考。傳統(tǒng)上,,AI領(lǐng)域存在兩種主要方法:基于符號(hào)操作的方法和類似人腦的神經(jīng)網(wǎng)絡(luò)方法,。AlphaGeometry2采用混合架構(gòu),其Gemini模型采用神經(jīng)網(wǎng)絡(luò)架構(gòu),,而符號(hào)引擎則基于規(guī)則運(yùn)算,。根據(jù)Deepmind的論文,在測(cè)試中,,同樣采用神經(jīng)網(wǎng)絡(luò)架構(gòu)的OpenAI o1模型無法解決任何AlphaGeometry2成功解答的IMO問題,。
卡內(nèi)基梅隆大學(xué)AI專家Vince Conitzer指出,雖然在基準(zhǔn)測(cè)試上取得了顯著進(jìn)展,,但包括最新的“推理型”在內(nèi)的語(yǔ)言模型仍在一些簡(jiǎn)單的常識(shí)問題上舉步維艱,。這表明我們?nèi)匀粺o法準(zhǔn)確預(yù)測(cè)下一個(gè)系統(tǒng)的具體行為,考慮到這些系統(tǒng)可能產(chǎn)生的重大影響,,迫切需要更好地理解它們及其潛在風(fēng)險(xiǎn),。
不過,研究團(tuán)隊(duì)發(fā)現(xiàn)初步證據(jù)表明,,AlphaGeometry2的語(yǔ)言模型部分已顯示出無需符號(hào)引擎輔助也能生成部分解決方案的潛力,。但在模型運(yùn)算速度得到根本改善、“幻覺”問題徹底解決之前,,符號(hào)運(yùn)算等外部工具仍將在數(shù)學(xué)應(yīng)用中扮演不可或缺的角色,。
一種名為PatternBoost的新方法在數(shù)學(xué)問題中尋找有趣的結(jié)構(gòu),這種方法結(jié)合了局部搜索和全局搜索
2024-11-14 16:07:30Transformer打破三十年數(shù)學(xué)猜想