近日,,中科院物理所在江蘇省溧陽市舉辦了“天目杯”理論物理競(jìng)賽,,并用DeepSeek-R1,、GPT-o1和Claude-sonnet三個(gè)AI模型對(duì)競(jìng)賽試題進(jìn)行了測(cè)試。結(jié)果顯示,DeepSeek-R1表現(xiàn)最佳,。
我國“深度求索”公司發(fā)布的開源大模型DeepSeek-R1引起了全球關(guān)注。在此之前,美國OpenAI公司的GPT-o1,、Anthropic公司的Claude以及Google公司的Gemini等模型都聲稱具備深度思考和推理能力。這些模型在各種測(cè)試中表現(xiàn)出色,,特別是Google的專用模型AlphaGeometry在國際奧林匹克數(shù)學(xué)競(jìng)賽中取得了28/42的成績,,獲得銀牌。這引發(fā)了人們的好奇,,這些強(qiáng)大的AI在物理方面的水平如何,。
1月17日,中科院物理所舉辦了“天目杯”理論物理競(jìng)賽。命題組完成了試卷的出題工作,,七道題目大部分是原創(chuàng),,旨在考察實(shí)際科研中的具體技術(shù)問題。競(jìng)賽結(jié)束后,,團(tuán)隊(duì)決定測(cè)試幾個(gè)有代表性的AI模型,。他們選擇了DeepSeek-R1、GPT-o1和Claude-sonnet進(jìn)行測(cè)試,。
測(cè)試過程包括8段對(duì)話,,首先交代任務(wù)和格式要求,然后依次發(fā)送題干,,每道題目由文字描述和圖片描述組成(第三,、五、七題無圖),。所有模型收到的文字材料相同,。閱卷方式與人類選手相同,最終匯總得分,。
測(cè)試結(jié)果顯示,,DeepSeek-R1表現(xiàn)最好,基礎(chǔ)題滿分,,第六題也得到了滿分,,但在第七題上因未能理解題干中“證明”的含義而失分。GPT-o1總分接近DeepSeek,,但有一些計(jì)算錯(cuò)誤,。Claude-sonnet在前兩題中得分為零,但后續(xù)表現(xiàn)與GPT-o1相近,。
如果將AI的成績與人類成績相比,,DeepSeek-R1可以進(jìn)入前三名,但與最高分仍有差距,;GPT-o1進(jìn)入前五名,,Claude-sonnet則排在前十名。閱卷過程中發(fā)現(xiàn),,AI思路清晰,,但容易在簡單錯(cuò)誤中打轉(zhuǎn),且似乎不完全理解“嚴(yán)密”證明的要求,。此外,,AI也會(huì)出現(xiàn)偶然性錯(cuò)誤。
此次競(jìng)賽還發(fā)布了試題參考答案,,希望幫助學(xué)生學(xué)習(xí)并引發(fā)進(jìn)一步思考,。