近日,,中科院物理所在江蘇省溧陽市舉辦了“天目杯”理論物理競賽,,并用DeepSeek-R1、GPT-o1和Claude-sonnet三個AI模型對競賽試題進行了測試,。結果顯示,,DeepSeek-R1表現(xiàn)最佳。
我國“深度求索”公司發(fā)布的開源大模型DeepSeek-R1引起了全球關注,。在此之前,,美國OpenAI公司的GPT-o1、Anthropic公司的Claude以及Google公司的Gemini等模型都聲稱具備深度思考和推理能力,。這些模型在各種測試中表現(xiàn)出色,,特別是Google的專用模型AlphaGeometry在國際奧林匹克數(shù)學競賽中取得了28/42的成績,,獲得銀牌。這引發(fā)了人們的好奇,,這些強大的AI在物理方面的水平如何,。
1月17日,中科院物理所舉辦了“天目杯”理論物理競賽,。命題組完成了試卷的出題工作,,七道題目大部分是原創(chuàng),旨在考察實際科研中的具體技術問題,。競賽結束后,,團隊決定測試幾個有代表性的AI模型。他們選擇了DeepSeek-R1,、GPT-o1和Claude-sonnet進行測試,。
測試過程包括8段對話,首先交代任務和格式要求,,然后依次發(fā)送題干,,每道題目由文字描述和圖片描述組成(第三、五,、七題無圖),。所有模型收到的文字材料相同。閱卷方式與人類選手相同,,最終匯總得分,。
測試結果顯示,DeepSeek-R1表現(xiàn)最好,,基礎題滿分,,第六題也得到了滿分,但在第七題上因未能理解題干中“證明”的含義而失分,。GPT-o1總分接近DeepSeek,,但有一些計算錯誤。Claude-sonnet在前兩題中得分為零,,但后續(xù)表現(xiàn)與GPT-o1相近,。
如果將AI的成績與人類成績相比,DeepSeek-R1可以進入前三名,,但與最高分仍有差距,;GPT-o1進入前五名,Claude-sonnet則排在前十名,。閱卷過程中發(fā)現(xiàn),,AI思路清晰,,但容易在簡單錯誤中打轉,,且似乎不完全理解“嚴密”證明的要求,。此外,AI也會出現(xiàn)偶然性錯誤,。
此次競賽還發(fā)布了試題參考答案,,希望幫助學生學習并引發(fā)進一步思考。
中國科學院大氣物理研究所退休職工洪鐘祥同志,,中共黨員,因病醫(yī)治無效,,于2024年12月6日在北京逝世,,享年87歲。他曾擔任該所所長,,對他的不幸逝世,,我們表示沉痛的哀悼
2024-12-08 00:08:30中科院大氣物理所原所長逝世1月27日,中國人工智能初創(chuàng)公司DeepSeek迅速崛起,,在中國即將迎來農(nóng)歷新年之際,,這一事件影響了美國科技股市場,,并引發(fā)了對美國技術主導地位的質疑
2025-01-28 09:12:00DeepSeek一夜掀翻美股