科學(xué)家們對DeepSeek-R1表現(xiàn)出濃厚興趣,,這是一種價格低廉但功能強大的人工智能推理模型,。自一家中國公司上周發(fā)布以來,,美國股市因此出現(xiàn)上漲,。測試表明,DeepSeek-R1在解決數(shù)學(xué)和科學(xué)問題方面與OpenAI于9月發(fā)布的o1模型相當(dāng),。
盡管R1在某些任務(wù)上仍有不足,,但它為全球科學(xué)家提供了訓(xùn)練定制推理模型的機會。俄亥俄州立大學(xué)的人工智能研究員Huan Sun表示,,由于其出色的性能和低成本,,更多科學(xué)家可以在日常研究中嘗試大型語言模型,而不必?fù)?dān)心成本,。她還提到幾乎所有從事人工智能工作的同事都在討論這個模型,。
對于研究人員來說,R1的低成本和開放性可能帶來巨大變革,。他們可以通過應(yīng)用程序編程接口以較低成本查詢該模型,,或者免費使用其在線聊天機器人DeepThink。此外,,還可以將模型下載到自己的服務(wù)器上并免費運行和構(gòu)建,,這在競爭對手的封閉模型如o1中是不可能實現(xiàn)的。
溫哥華不列顛哥倫比亞大學(xué)的人工智能研究員Cong Lu表示,,自1月20日R1推出以來,,許多研究人員一直在探索如何基于R1訓(xùn)練自己的推理模型。Hugging Face的數(shù)據(jù)支持了這一點,,一周內(nèi)記錄了超過300萬次不同版本的R1下載,。
Sun的研究團隊對R1進行了初步測試,結(jié)果顯示它在生物信息學(xué),、計算化學(xué)和認(rèn)知神經(jīng)科學(xué)等領(lǐng)域的數(shù)據(jù)驅(qū)動任務(wù)中表現(xiàn)良好,。兩種模型都正確解決了約三分之一的任務(wù),但R1的成本僅為o1的1/13,雖然思考速度較慢,。
在數(shù)學(xué)領(lǐng)域,,牛津大學(xué)的Frieder Simon發(fā)現(xiàn)R1在抽象泛函分析中的證明比o1更具前景。但他也指出,,研究人員需要具備分辨證明質(zhì)量的能力,,因為這些模型可能會犯錯。
R1受到廣泛關(guān)注的原因之一是其以“開放權(quán)重”形式發(fā)布,,這意味著其算法連接可供繼續(xù)使用,。科學(xué)家可以通過微調(diào)提高其在特定領(lǐng)域的性能,。孫教授表示,,只要有合適的數(shù)據(jù)集,研究人員可以訓(xùn)練模型以改進特定科學(xué)過程的編碼任務(wù),。
能夠下載并部署R1到本地系統(tǒng)也有助于保護隱私,,特別是在涉及敏感數(shù)據(jù)的醫(yī)學(xué)研究中。舊金山人工智能公司Anthropic的聯(lián)合創(chuàng)始人Jack Clark表示,,DeepSeek展示了改進其他模型的方法,,通過將其推理能力傳授給其他大型語言模型,例如Meta的Llama,。
研究人員也在應(yīng)用強化學(xué)習(xí)技術(shù)來改進具體任務(wù),。Lu去年參與創(chuàng)建了一個名為“AI Scientist”的模型,該模型可以執(zhí)行從文獻掃描到撰寫論文的一系列研究任務(wù),。通過定義適當(dāng)?shù)莫剟钚盘?,科學(xué)家可以針對任何目標(biāo)訓(xùn)練模型。
然而,,DeepSeek-R1并非完美無缺,。例如,在一些簡單的任務(wù)上,,如計算包含字母W的美國州名數(shù)量時,,聊天機器人DeepThink未能成功完成。與其他中國模型一樣,,R1拒絕回答政治敏感問題,,但尚不清楚這是內(nèi)置限制還是界面設(shè)置所致。
人工智能大語言模型的智慧通常與其接受的訓(xùn)練數(shù)據(jù)量成正比,越多的數(shù)據(jù)往往造就更“聰明”的模型
2024-07-29 15:35:30Nature封面:AI訓(xùn)AI