AI圈的頭條被DeepSeek占據(jù)多日,直到OpenAI推出了全新的推理模型系列o3-mini,。這次不僅向免費用戶開放了推理模型,而且成本相比之前的o1系列降低了15倍。OpenAI表示這是其推理模型系列中最新、最具成本效益的模型。
新模型上線后,,網(wǎng)友們迅速將其與國產(chǎn)大模型DeepSeek R1進行對比。此前,,AI社區(qū)熱衷于用DeepSeek R1和其他模型進行編程挑戰(zhàn),,比如編寫一個Python腳本,讓球在某個形狀內(nèi)彈跳并保持在形狀內(nèi),。這種任務(wù)需要模型識別物體間的碰撞,并確保物理效果準(zhǔn)確,。
在這項測試中,,DeepSeek R1曾表現(xiàn)出色,甚至超過了OpenAI的o1 pro,。不過,,隨著o3-mini的推出,,情況發(fā)生了變化。有帖子聲稱o3-mini在某些方面超越了DeepSeek R1,,引發(fā)了大量網(wǎng)友關(guān)注,。
例如,在一個開發(fā)者發(fā)布的測試中,,要求兩個模型分別編寫一個球在旋轉(zhuǎn)六邊形內(nèi)彈跳的Python程序,,小球需受重力和摩擦力影響。結(jié)果顯示,,o3-mini對碰撞和彈跳的處理更為出色,,而DeepSeek R1的小球似乎不受重力控制。
類似的情況也出現(xiàn)在另一個測試中,,要求模型模擬一個球在四維超立方體內(nèi)彈跳,。o3-mini展示了穩(wěn)定的幾何結(jié)構(gòu)和靈活的運動軌跡,相比之下,,DeepSeek R1的表現(xiàn)則顯得不夠精準(zhǔn),,小球的運動軌跡有些詭異。
進一步的測試使用了更復(fù)雜的提示詞,,如編寫一個p5.js腳本,,模擬100個彩色小球在一個球體內(nèi)部彈跳。o3-mini完美滿足了所有要求,,而DeepSeek R1雖然表現(xiàn)不錯,,但仍有改進空間。
這些結(jié)果表明,,o3-mini在理解真實世界的物理規(guī)律方面可能更具優(yōu)勢,。OpenAI也在發(fā)布博客中提到,o3-mini在科學(xué)問題上的表現(xiàn)優(yōu)于前代模型,。對于大語言模型來說,,理解和模擬物理狀態(tài)的能力是一個重要的突破。
當(dāng)?shù)貢r間1月31日,,OpenAI推出了推理模型o3-mini,,這是其推理系列中最新且最具成本效益的版本,現(xiàn)已可在ChatGPT和API中使用
2025-02-01 12:11:46OpenAI上線o3-mini