五大AI聊天機(jī)器人盲測(cè)，ChatGPT未能奪冠,，最終贏家竟來(lái)自這家“小公司”

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2024-05-29 09:56:28 騰訊網(wǎng)

五大AI聊天機(jī)器人盲測(cè),，ChatGPT未能奪冠,，最終贏家竟來(lái)自這家“小公司”

近期，《華爾街日?qǐng)?bào)》開(kāi)展了一項(xiàng)全面的盲測(cè),，對(duì)比評(píng)估了當(dāng)下五大AI聊天機(jī)器人：ChatGPT,、Claude、Copilot,、Gemini和Perplexity,。這些機(jī)器人在解決實(shí)際問(wèn)題和執(zhí)行日常任務(wù)的能力上接受了檢驗(yàn)，以此反映它們?cè)趯?shí)際應(yīng)用場(chǎng)景中的性能,。測(cè)試不僅考察了它們的準(zhǔn)確性,、實(shí)用價(jià)值，還有整體回答質(zhì)量,，通過(guò)一系列精心設(shè)計(jì)的提示詞覆蓋了諸如編程挑戰(zhàn),、健康咨詢和財(cái)務(wù)規(guī)劃等多種常見(jiàn)需求。值得注意的是，這項(xiàng)測(cè)試特別采用了高級(jí)功能,，包括OpenAI的ChatGPT GPT-4o模型和谷歌的Gemini 1.5 Pro,，以期全面展現(xiàn)它們的潛力。

結(jié)果顯示,，Perplexity在綜合評(píng)比中位居第一,，ChatGPT緊跟其后，而微軟的Copilot表現(xiàn)最不理想,。Perplexity尤其在總結(jié)、編程問(wèn)題及時(shí)事資訊上展現(xiàn)出了卓越的能力,，幾乎在所有單項(xiàng)測(cè)試中都進(jìn)入了前三,。這款由Perplexity AI公司開(kāi)發(fā)的工具，因其在生成式AI搜索領(lǐng)域的革新,，被譽(yù)為“谷歌殺手”,，并且用戶量已突破1000萬(wàn)，團(tuán)隊(duì)規(guī)模卻保持精簡(jiǎn),。

盡管ChatGPT更新后被寄予厚望,，但它并未能在所有測(cè)試中領(lǐng)先，反而是較為冷門的Perplexity在多項(xiàng)測(cè)試中拔得頭籌,。Anthropic的Claude在寫作任務(wù)上表現(xiàn)出色,，但由于訪問(wèn)限制和響應(yīng)速度慢，總排名下滑至第四,。Copilot和Gemini則在測(cè)試中表現(xiàn)平平,，尤其是Copilot在多個(gè)測(cè)試中墊底，經(jīng)常忽視關(guān)鍵信息,。

在具體分類測(cè)試中,，如健康建議、財(cái)務(wù)管理,、烹飪指導(dǎo),、職場(chǎng)寫作、創(chuàng)意寫作,、內(nèi)容總結(jié),、時(shí)事追蹤及代碼編寫等方面，各AI機(jī)器人表現(xiàn)各異,。例如,，Perplexity在總結(jié)和時(shí)事類問(wèn)題上展現(xiàn)了強(qiáng)大的信息處理能力，而Copilot雖然在職場(chǎng)寫作中表現(xiàn)不佳,，卻在創(chuàng)意寫作上找回了場(chǎng)子,。Gemini在理財(cái)建議上給出了實(shí)用的指導(dǎo)，但面對(duì)健康問(wèn)題時(shí)給出的意見(jiàn)略顯模糊。

測(cè)試還揭示了各機(jī)器人在速度上的差異,，其中ChatGPT借助最新升級(jí),，響應(yīng)迅速，而Claude和Perplexity則顯得較為遲緩,。

綜觀整個(gè)測(cè)試,，雖然ChatGPT作為熱門產(chǎn)品并未占據(jù)絕對(duì)領(lǐng)先地位，但Perplexity的脫穎而出證明了專注于特定領(lǐng)域優(yōu)化同樣能帶來(lái)優(yōu)異成果,，展示了AI聊天機(jī)器人領(lǐng)域內(nèi)多樣化的競(jìng)爭(zhēng)格局與不斷進(jìn)步的技術(shù)水平,。

(責(zé)任編輯：盧其龍 CN070)

關(guān)閉

五大AI聊天機(jī)器人盲測(cè)，ChatGPT未能奪冠,，最終贏家竟來(lái)自這家“小公司”

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)