用DeepSeek挑戰(zhàn)中科院物理所競(jìng)賽題 AI表現(xiàn)亮眼

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-01-31 09:01:43 觀察者網(wǎng)

近日,，中科院物理所在江蘇省溧陽市舉辦了“天目杯”理論物理競(jìng)賽,，并用DeepSeek-R1,、GPT-o1和Claude-sonnet三個(gè)AI模型對(duì)競(jìng)賽試題進(jìn)行了測(cè)試。結(jié)果顯示，DeepSeek-R1表現(xiàn)最佳,。

用DeepSeek挑戰(zhàn)中科院物理所競(jìng)賽題

我國“深度求索”公司發(fā)布的開源大模型DeepSeek-R1引起了全球關(guān)注。在此之前，美國OpenAI公司的GPT-o1,、Anthropic公司的Claude以及Google公司的Gemini等模型都聲稱具備深度思考和推理能力。這些模型在各種測(cè)試中表現(xiàn)出色,，特別是Google的專用模型AlphaGeometry在國際奧林匹克數(shù)學(xué)競(jìng)賽中取得了28/42的成績,，獲得銀牌。這引發(fā)了人們的好奇,，這些強(qiáng)大的AI在物理方面的水平如何,。

用DeepSeek挑戰(zhàn)中科院物理所競(jìng)賽題 AI表現(xiàn)亮眼

1月17日，中科院物理所舉辦了“天目杯”理論物理競(jìng)賽。命題組完成了試卷的出題工作,，七道題目大部分是原創(chuàng),，旨在考察實(shí)際科研中的具體技術(shù)問題。競(jìng)賽結(jié)束后,，團(tuán)隊(duì)決定測(cè)試幾個(gè)有代表性的AI模型,。他們選擇了DeepSeek-R1、GPT-o1和Claude-sonnet進(jìn)行測(cè)試,。

用DeepSeek挑戰(zhàn)中科院物理所競(jìng)賽題 AI表現(xiàn)亮眼

測(cè)試過程包括8段對(duì)話,，首先交代任務(wù)和格式要求，然后依次發(fā)送題干,，每道題目由文字描述和圖片描述組成（第三,、五、七題無圖）,。所有模型收到的文字材料相同,。閱卷方式與人類選手相同，最終匯總得分,。

用DeepSeek挑戰(zhàn)中科院物理所競(jìng)賽題 AI表現(xiàn)亮眼

測(cè)試結(jié)果顯示,，DeepSeek-R1表現(xiàn)最好，基礎(chǔ)題滿分,，第六題也得到了滿分,，但在第七題上因未能理解題干中“證明”的含義而失分。GPT-o1總分接近DeepSeek,，但有一些計(jì)算錯(cuò)誤,。Claude-sonnet在前兩題中得分為零，但后續(xù)表現(xiàn)與GPT-o1相近,。

用DeepSeek挑戰(zhàn)中科院物理所競(jìng)賽題 AI表現(xiàn)亮眼

如果將AI的成績與人類成績相比,，DeepSeek-R1可以進(jìn)入前三名，但與最高分仍有差距,；GPT-o1進(jìn)入前五名,，Claude-sonnet則排在前十名。閱卷過程中發(fā)現(xiàn),，AI思路清晰,，但容易在簡單錯(cuò)誤中打轉(zhuǎn)，且似乎不完全理解“嚴(yán)密”證明的要求,。此外,，AI也會(huì)出現(xiàn)偶然性錯(cuò)誤。

此次競(jìng)賽還發(fā)布了試題參考答案,，希望幫助學(xué)生學(xué)習(xí)并引發(fā)進(jìn)一步思考,。

(責(zé)任編輯：于浩淙 zx0176)

關(guān)閉

用DeepSeek挑戰(zhàn)中科院物理所競(jìng)賽題 AI表現(xiàn)亮眼

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)