2月6日,美國斯坦福大學(xué)和華盛頓大學(xué)的研究人員李飛飛團(tuán)隊(duì)宣布,,他們以低于50美元的云計(jì)算成本訓(xùn)練出人工智能推理模型s1-32B,。該模型在數(shù)學(xué)及編碼測(cè)試中的表現(xiàn)與OpenAI的o1、DeepSeek的R1等尖端模型相當(dāng),,引起了行業(yè)的廣泛關(guān)注,。
據(jù)報(bào)道,s1-32B是基于阿里云通義千問Qwen2.5-32B-Instruct開源模型進(jìn)行微調(diào)后得到的,。阿里云證實(shí),,該團(tuán)隊(duì)使用了16塊H100 GPU,在監(jiān)督微調(diào)26分鐘后,成功訓(xùn)練出了新模型s1-32B,。新模型在數(shù)學(xué)及編碼能力上達(dá)到了與OpenAI的o1和DeepSeek的R1等尖端推理模型相當(dāng)?shù)乃?,甚至在?jìng)賽數(shù)學(xué)問題上的表現(xiàn)比o1-preview高出27%。