測試結(jié)果顯示,,DeepSeek-R1表現(xiàn)最好,,基礎(chǔ)題滿分,,第六題也得到了滿分,,但在第七題上因未能理解題干中“證明”的含義而失分。GPT-o1總分接近DeepSeek,,但有一些計算錯誤,。Claude-sonnet在前兩題中得分為零,但后續(xù)表現(xiàn)與GPT-o1相近。
如果將AI的成績與人類成績相比,,DeepSeek-R1可以進(jìn)入前三名,,但與最高分仍有差距;GPT-o1進(jìn)入前五名,,Claude-sonnet則排在前十名。閱卷過程中發(fā)現(xiàn),,AI思路清晰,,但容易在簡單錯誤中打轉(zhuǎn),且似乎不完全理解“嚴(yán)密”證明的要求,。此外,,AI也會出現(xiàn)偶然性錯誤。
此次競賽還發(fā)布了試題參考答案,,希望幫助學(xué)生學(xué)習(xí)并引發(fā)進(jìn)一步思考,。