AI圈的頭條被DeepSeek占據(jù)多日,,直到OpenAI推出了全新的推理模型系列o3-mini。這次不僅向免費(fèi)用戶(hù)開(kāi)放了推理模型,,而且成本相比之前的o1系列降低了15倍,。OpenAI表示這是其推理模型系列中最新,、最具成本效益的模型。
新模型上線(xiàn)后,,網(wǎng)友們迅速將其與國(guó)產(chǎn)大模型DeepSeek R1進(jìn)行對(duì)比,。此前,AI社區(qū)熱衷于用DeepSeek R1和其他模型進(jìn)行編程挑戰(zhàn),,比如編寫(xiě)一個(gè)Python腳本,,讓球在某個(gè)形狀內(nèi)彈跳并保持在形狀內(nèi)。這種任務(wù)需要模型識(shí)別物體間的碰撞,,并確保物理效果準(zhǔn)確,。
在這項(xiàng)測(cè)試中,DeepSeek R1曾表現(xiàn)出色,,甚至超過(guò)了OpenAI的o1 pro,。不過(guò),隨著o3-mini的推出,,情況發(fā)生了變化,。有帖子聲稱(chēng)o3-mini在某些方面超越了DeepSeek R1,引發(fā)了大量網(wǎng)友關(guān)注,。
例如,,在一個(gè)開(kāi)發(fā)者發(fā)布的測(cè)試中,要求兩個(gè)模型分別編寫(xiě)一個(gè)球在旋轉(zhuǎn)六邊形內(nèi)彈跳的Python程序,,小球需受重力和摩擦力影響,。結(jié)果顯示,o3-mini對(duì)碰撞和彈跳的處理更為出色,,而DeepSeek R1的小球似乎不受重力控制,。
類(lèi)似的情況也出現(xiàn)在另一個(gè)測(cè)試中,要求模型模擬一個(gè)球在四維超立方體內(nèi)彈跳,。o3-mini展示了穩(wěn)定的幾何結(jié)構(gòu)和靈活的運(yùn)動(dòng)軌跡,,相比之下,DeepSeek R1的表現(xiàn)則顯得不夠精準(zhǔn),,小球的運(yùn)動(dòng)軌跡有些詭異,。
進(jìn)一步的測(cè)試使用了更復(fù)雜的提示詞,如編寫(xiě)一個(gè)p5.js腳本,,模擬100個(gè)彩色小球在一個(gè)球體內(nèi)部彈跳,。o3-mini完美滿(mǎn)足了所有要求,而DeepSeek R1雖然表現(xiàn)不錯(cuò),,但仍有改進(jìn)空間,。
這些結(jié)果表明,o3-mini在理解真實(shí)世界的物理規(guī)律方面可能更具優(yōu)勢(shì)。OpenAI也在發(fā)布博客中提到,,o3-mini在科學(xué)問(wèn)題上的表現(xiàn)優(yōu)于前代模型,。對(duì)于大語(yǔ)言模型來(lái)說(shuō),理解和模擬物理狀態(tài)的能力是一個(gè)重要的突破,。
當(dāng)?shù)貢r(shí)間1月31日,OpenAI推出了推理模型o3-mini,,這是其推理系列中最新且最具成本效益的版本,,現(xiàn)已可在ChatGPT和API中使用
2025-02-01 12:11:46OpenAI上線(xiàn)o3-mini