就在開源的DeepSeek-R1被整合進(jìn)各路AI搜索工具之際,,OpenAI臨時(shí)舉行了一場小型發(fā)布會,。發(fā)布會于4點(diǎn)27分通知,,8點(diǎn)開始直播。
ChatGPT推出了新功能“Deep Research”,,利用推理大模型的思考能力進(jìn)行聯(lián)網(wǎng)搜索,。據(jù)介紹,,這一功能可在數(shù)十分鐘內(nèi)完成人類專家需要幾個(gè)小時(shí)才能完成的復(fù)雜研究任務(wù),。在被稱為“人類最后的考試”的測試中,,Deep Research刷新了最高分,比o3-mini高推理設(shè)置分?jǐn)?shù)高出一倍,。該測試包括3000多個(gè)多選和簡答題,,涵蓋從語言學(xué)、火箭科學(xué)到生態(tài)學(xué)的100多個(gè)主題,。與o1相比,,Deep Research在化學(xué)、人文和社會科學(xué)以及數(shù)學(xué)方面表現(xiàn)尤為突出,,顯示出類似人類在必要時(shí)尋找專業(yè)信息的能力,。另一項(xiàng)名為GAIA的基準(zhǔn)測試評估了AI在現(xiàn)實(shí)世界問題上的表現(xiàn),Deep Research在三個(gè)難度級別上均刷新了記錄,。出于保護(hù)基準(zhǔn)測試的目的,OpenAI只展示了Deep Research在完成這些任務(wù)時(shí)的搜索過程,,隱去了最終答案,。
接下來,,Deep Research功能將對Pro、Plus和Team用戶開放,。奧特曼補(bǔ)充說,,目前版本基于o3構(gòu)建,Plus用戶(每月20美元)每個(gè)月能使用約10次,,并且正在開發(fā)一個(gè)更高效的版本,。此外,免費(fèi)用戶也能獲得少量的使用額度,。
OpenAI表示,,Deep Research專門針對金融、科學(xué)和工程等領(lǐng)域從事高強(qiáng)度知識工作的人群設(shè)計(jì),,由OpenAI o3驅(qū)動,,通過真實(shí)任務(wù)訓(xùn)練,采用與o1相同的強(qiáng)化學(xué)習(xí)方法,。只需一個(gè)提示,,它就能查找分析并整合數(shù)百個(gè)在線資源,生成一份達(dá)到研究分析師水平的綜合報(bào)告,。官方稱,,Deep Research標(biāo)志著他們在開發(fā)AGI的宏偉目標(biāo)上邁出重要一步,能夠進(jìn)行新穎的科學(xué)研究,。使用方法是點(diǎn)擊輸入框下方的Deep Research按鈕,,支持上傳文件添加額外資料。例如,,可以要求編寫一份關(guān)于過去三年零售業(yè)變化的研究報(bào)告,,并運(yùn)用項(xiàng)目符號和表格來提升內(nèi)容的清晰度。ChatGPT會先確認(rèn)一些細(xì)節(jié)信息,,然后開始分析和挖掘信息,。側(cè)邊欄會顯示所采取的步驟摘要和使用的信息來源。完成任務(wù)的時(shí)間大約為5-30分鐘,,結(jié)果將以報(bào)告的形式輸出,。未來幾周內(nèi),還將為這些報(bào)告添加嵌入式圖片,、數(shù)據(jù)可視化和其他分析輸出,。
與GPT-4等模型相比,Deep Research對于需要深度和細(xì)節(jié)的多方面,、特定領(lǐng)域的問題,,能夠進(jìn)行廣泛探索并引用每個(gè)觀點(diǎn)。不過,它也存在局限性,,如有時(shí)會在回復(fù)中產(chǎn)生事實(shí)幻覺或做出錯(cuò)誤推斷,,盡管根據(jù)內(nèi)部評估,其錯(cuò)誤率明顯低于現(xiàn)有的ChatGPT模型,。它可能在區(qū)分權(quán)威信息和謠言方面遇到困難,,并且在自信度校準(zhǔn)方面表現(xiàn)出弱點(diǎn),常常無法準(zhǔn)確傳達(dá)不確定性,。報(bào)告和引用中可能會有輕微的格式錯(cuò)誤,,并且啟動任務(wù)可能需要更長的時(shí)間。下一步,,OpenAI計(jì)劃在本月內(nèi)將Deep Research推向移動和桌面應(yīng)用程序,。目前,Deep Research可以訪問公開網(wǎng)絡(luò)和上傳的文件,,未來將連接更多專業(yè)化的數(shù)據(jù)源,,使其輸出更加穩(wěn)健和個(gè)性化。
OpenAI研究員Jason Wei認(rèn)為,,Deep Research不僅是出色的代理,,也可以看作是互聯(lián)網(wǎng)的新界面。人類使用互聯(lián)網(wǎng)需要大量時(shí)間搜索和點(diǎn)擊,,受到時(shí)間和注意力的限制,。而AI不會累,一次可以瀏覽許多網(wǎng)站,,并擁有幾乎無限的世界知識,。將來,手動瀏覽互聯(lián)網(wǎng)可能會像手動計(jì)算數(shù)字而不使用計(jì)算器一樣過時(shí),。
OpenAI toG業(yè)務(wù)負(fù)責(zé)人Felipe Millon分享了一個(gè)個(gè)人故事,。10月底,他的妻子被診斷出患有雙側(cè)乳腺癌,,病情嚴(yán)重,,在12月初進(jìn)行了雙乳房切除手術(shù),并隨后開始化療,。他們面臨是否接受放療的問題,,不同專家給出了不同的建議。Millon嘗試使用Deep Research上傳了手術(shù)報(bào)告并詢問ChatGPT的建議,。ChatGPT不僅證實(shí)了人類專家提到的內(nèi)容,,還找到了新的參考研究。Millon認(rèn)為這是一個(gè)改變世界的工具,。
還有一些第三方團(tuán)隊(duì)提前獲得了Deep Research的測試資格,,并分享了測試結(jié)果。Every團(tuán)隊(duì)介紹,某些問題需要花費(fèi)30分鐘才能得到結(jié)果,,答案可能超過1萬個(gè)單詞,。他們做的測試包括撰寫從2020年到今天每一天的歷史、閱讀《戰(zhàn)爭與和平》第一章并分析托爾斯泰的人物描寫,,以及仔細(xì)查閱近期的10-K報(bào)告以發(fā)現(xiàn)未報(bào)告的財(cái)務(wù)違規(guī)行為等。測試中發(fā)現(xiàn)的局限性包括有時(shí)信息缺失引用來源,,沒有“停止”按鈕,,如果搜索偏離方向只能重新開始。
在第八日的技術(shù)分享直播中,,OpenAI宣布向全球用戶免費(fèi)開放ChatGPT搜索功能,,并展示了該功能在移動設(shè)備上的更新版本
2024-12-18 08:29:53ChatGPT搜索迎來重大更新