2月6日,美國斯坦福大學(xué)和華盛頓大學(xué)的研究人員李飛飛團隊宣布,,他們以低于50美元的云計算成本訓(xùn)練出人工智能推理模型s1-32B,。該模型在數(shù)學(xué)及編碼測試中的表現(xiàn)與OpenAI的o1、DeepSeek的R1等尖端模型相當(dāng),,引起了行業(yè)的廣泛關(guān)注,。
據(jù)報道,s1-32B是基于阿里云通義千問Qwen2.5-32B-Instruct開源模型進行微調(diào)后得到的,。阿里云證實,,該團隊使用了16塊H100 GPU,在監(jiān)督微調(diào)26分鐘后,,成功訓(xùn)練出了新模型s1-32B,。新模型在數(shù)學(xué)及編碼能力上達到了與OpenAI的o1和DeepSeek的R1等尖端推理模型相當(dāng)?shù)乃?,甚至在競賽?shù)學(xué)問題上的表現(xiàn)比o1-preview高出27%。