AI圈的頭條被DeepSeek占據(jù)多日,直到OpenAI推出了全新的推理模型系列o3-mini,。這次不僅向免費(fèi)用戶開放了推理模型,,而且成本相比之前的o1系列降低了15倍。OpenAI表示這是其推理模型系列中最新,、最具成本效益的模型,。
新模型上線后,網(wǎng)友們迅速將其與國(guó)產(chǎn)大模型DeepSeek R1進(jìn)行對(duì)比,。此前,,AI社區(qū)熱衷于用DeepSeek R1和其他模型進(jìn)行編程挑戰(zhàn),,比如編寫一個(gè)Python腳本,讓球在某個(gè)形狀內(nèi)彈跳并保持在形狀內(nèi),。這種任務(wù)需要模型識(shí)別物體間的碰撞,,并確保物理效果準(zhǔn)確。
在這項(xiàng)測(cè)試中,,DeepSeek R1曾表現(xiàn)出色,甚至超過了OpenAI的o1 pro,。不過,,隨著o3-mini的推出,情況發(fā)生了變化,。有帖子聲稱o3-mini在某些方面超越了DeepSeek R1,,引發(fā)了大量網(wǎng)友關(guān)注。
例如,,在一個(gè)開發(fā)者發(fā)布的測(cè)試中,要求兩個(gè)模型分別編寫一個(gè)球在旋轉(zhuǎn)六邊形內(nèi)彈跳的Python程序,,小球需受重力和摩擦力影響,。結(jié)果顯示,o3-mini對(duì)碰撞和彈跳的處理更為出色,,而DeepSeek R1的小球似乎不受重力控制,。
類似的情況也出現(xiàn)在另一個(gè)測(cè)試中,,要求模型模擬一個(gè)球在四維超立方體內(nèi)彈跳,。o3-mini展示了穩(wěn)定的幾何結(jié)構(gòu)和靈活的運(yùn)動(dòng)軌跡,相比之下,,DeepSeek R1的表現(xiàn)則顯得不夠精準(zhǔn),,小球的運(yùn)動(dòng)軌跡有些詭異。
進(jìn)一步的測(cè)試使用了更復(fù)雜的提示詞,,如編寫一個(gè)p5.js腳本,模擬100個(gè)彩色小球在一個(gè)球體內(nèi)部彈跳,。o3-mini完美滿足了所有要求,而DeepSeek R1雖然表現(xiàn)不錯(cuò),,但仍有改進(jìn)空間,。
這些結(jié)果表明,,o3-mini在理解真實(shí)世界的物理規(guī)律方面可能更具優(yōu)勢(shì),。OpenAI也在發(fā)布博客中提到,o3-mini在科學(xué)問題上的表現(xiàn)優(yōu)于前代模型。對(duì)于大語言模型來說,,理解和模擬物理狀態(tài)的能力是一個(gè)重要的突破,。