剛剛,，OpenAI放出最后大驚喜o3,，高計算模式每任務花費數千美元突破ARC-AGI基準

小大

用微信掃描二維碼
分享至好友和朋友圈

關鍵詞：

2024-12-22 10:22:16 機器之心Pro

OpenAI 在為期12天的發(fā)布周期中，最終推出了新的推理系列模型o3和o3-mini,。這些模型是o1系列的繼任者,，旨在通過增加思考時間來提高回答準確率,。由于版權問題，OpenAI跳過了o2這一命名,。

從昨天開始,，OpenAI已經開始預熱新模型，并且有開發(fā)者在網上發(fā)現了對o3_min_safety_test的引用,。然而,，o3系列模型不會直接公開發(fā)布，而是先進行安全測試,。Sam Altman提到,，他們計劃在一月底左右推出o3-mini,，并在不久后推出完整的o3模型,。

o3模型在ARC-AGI基準上取得了突破，成為首個達到該基準優(yōu)良水平的AI模型,。在高效率模式下,，o3的最低性能為75.7%，而在低效率模式下則能達到87.5%,。ARC-AGI基準要求AI根據輸入輸出示例尋找規(guī)律并預測輸出,，類似于圖形推理問題。盡管每項任務的成本較高,，但o3展示了人工智能適應新任務能力的重大飛躍,。

不過，報告也指出,，ARC-AGI并不是對AGI的嚴峻考驗,，通過ARC-AGI并不等于實現AGI。o3在一些簡單任務上仍然失敗,，表明其與人類智能存在根本差異,。明年，ARC Prize Fundation將與OpenAI合作開發(fā)下一代基準,，預計會對o3構成重大挑戰(zhàn),。

o3在編碼能力和數學問題上的表現也顯著提升。在SWE-bench Verified基準上,，o3的準確率約為71.7%,，比o1高出20%以上。在競賽數學上,，o3的準確率達到96.7%,，在GPQA Diamond基準上達到87.7%。此外,，在EpochAI Frontier Math基準上,，o3的準確率超過25%,，而其他產品低于2%。

o3-mini是一個更經濟高效的版本,，專注于提升推理速度和降低成本,。它支持三種不同的推理時間選項——低、中,、高,。與o1相比，o3-mini在Codeforces上的性能具有顯著的成本效益,，使其非常適合編程,。在數學問題上，o3-mini (low) 實現了與gpt-4o相當的低延遲,。

OpenAI已經進行了大量內部安全測試,，并正在推進外部安全測試。從即日起,，想要參與測試的研究人員可以申請測試o3-mini,，而o3的測試則需要等待。申請地址已在OpenAI網站上開放,，并將于2025年1月10日關閉,。申請者需填寫在線表格，提供相關信息,，包括之前發(fā)表的論文鏈接及其在Github上的代碼庫,，并選擇希望測試的模型及使用目的。

OpenAI還介紹了一種新的安全評估方法：審議式對齊（deliberative alignment）,。這種方法直接教授模型安全規(guī)范,，并訓練模型在回答前明確回憶規(guī)范并準確執(zhí)行推理。他們使用這種方法對齊o系列模型,，實現了高度精確的安全政策遵守,。

(責任編輯：張蕾)

關閉

剛剛,，OpenAI放出最后大驚喜o3,，高計算模式每任務花費數千美元 突破ARC-AGI基準

相關新聞

今日熱點

頻道熱點

剛剛,，OpenAI放出最后大驚喜o3,，高計算模式每任務花費數千美元突破ARC-AGI基準