OpenAI 在為期12天的發(fā)布周期中,,最終推出了新的推理系列模型o3和o3-mini,。這些模型是o1系列的繼任者,旨在通過(guò)增加思考時(shí)間來(lái)提高回答準(zhǔn)確率,。由于版權(quán)問(wèn)題,,OpenAI跳過(guò)了o2這一命名。
從昨天開(kāi)始,,OpenAI已經(jīng)開(kāi)始預(yù)熱新模型,,并且有開(kāi)發(fā)者在網(wǎng)上發(fā)現(xiàn)了對(duì)o3_min_safety_test的引用。然而,,o3系列模型不會(huì)直接公開(kāi)發(fā)布,,而是先進(jìn)行安全測(cè)試。Sam Altman提到,,他們計(jì)劃在一月底左右推出o3-mini,,并在不久后推出完整的o3模型。
o3模型在ARC-AGI基準(zhǔn)上取得了突破,,成為首個(gè)達(dá)到該基準(zhǔn)優(yōu)良水平的AI模型,。在高效率模式下,o3的最低性能為75.7%,,而在低效率模式下則能達(dá)到87.5%,。ARC-AGI基準(zhǔn)要求AI根據(jù)輸入輸出示例尋找規(guī)律并預(yù)測(cè)輸出,類似于圖形推理問(wèn)題,。盡管每項(xiàng)任務(wù)的成本較高,,但o3展示了人工智能適應(yīng)新任務(wù)能力的重大飛躍。
不過(guò),,報(bào)告也指出,,ARC-AGI并不是對(duì)AGI的嚴(yán)峻考驗(yàn),通過(guò)ARC-AGI并不等于實(shí)現(xiàn)AGI,。o3在一些簡(jiǎn)單任務(wù)上仍然失敗,,表明其與人類智能存在根本差異。明年,,ARC Prize Fundation將與OpenAI合作開(kāi)發(fā)下一代基準(zhǔn),,預(yù)計(jì)會(huì)對(duì)o3構(gòu)成重大挑戰(zhàn)。
o3在編碼能力和數(shù)學(xué)問(wèn)題上的表現(xiàn)也顯著提升,。在SWE-bench Verified基準(zhǔn)上,,o3的準(zhǔn)確率約為71.7%,比o1高出20%以上。在競(jìng)賽數(shù)學(xué)上,,o3的準(zhǔn)確率達(dá)到96.7%,,在GPQA Diamond基準(zhǔn)上達(dá)到87.7%。此外,,在EpochAI Frontier Math基準(zhǔn)上,,o3的準(zhǔn)確率超過(guò)25%,而其他產(chǎn)品低于2%,。
o3-mini是一個(gè)更經(jīng)濟(jì)高效的版本,,專注于提升推理速度和降低成本。它支持三種不同的推理時(shí)間選項(xiàng)——低,、中,、高。與o1相比,,o3-mini在Codeforces上的性能具有顯著的成本效益,,使其非常適合編程。在數(shù)學(xué)問(wèn)題上,,o3-mini (low) 實(shí)現(xiàn)了與gpt-4o相當(dāng)?shù)牡脱舆t。
OpenAI已經(jīng)進(jìn)行了大量?jī)?nèi)部安全測(cè)試,,并正在推進(jìn)外部安全測(cè)試,。從即日起,想要參與測(cè)試的研究人員可以申請(qǐng)測(cè)試o3-mini,,而o3的測(cè)試則需要等待,。申請(qǐng)地址已在OpenAI網(wǎng)站上開(kāi)放,并將于2025年1月10日關(guān)閉,。申請(qǐng)者需填寫在線表格,,提供相關(guān)信息,包括之前發(fā)表的論文鏈接及其在Github上的代碼庫(kù),,并選擇希望測(cè)試的模型及使用目的,。
OpenAI還介紹了一種新的安全評(píng)估方法:審議式對(duì)齊(deliberative alignment)。這種方法直接教授模型安全規(guī)范,,并訓(xùn)練模型在回答前明確回憶規(guī)范并準(zhǔn)確執(zhí)行推理,。他們使用這種方法對(duì)齊o系列模型,實(shí)現(xiàn)了高度精確的安全政策遵守,。