五大AI聊天機(jī)器人盲測(cè),,ChatGPT未能奪冠,最終贏家竟來(lái)自這家“小公司”
近期,,《華爾街日?qǐng)?bào)》開(kāi)展了一項(xiàng)全面的盲測(cè),,對(duì)比評(píng)估了當(dāng)下五大AI聊天機(jī)器人:ChatGPT、Claude,、Copilot,、Gemini和Perplexity。這些機(jī)器人在解決實(shí)際問(wèn)題和執(zhí)行日常任務(wù)的能力上接受了檢驗(yàn),,以此反映它們?cè)趯?shí)際應(yīng)用場(chǎng)景中的性能,。測(cè)試不僅考察了它們的準(zhǔn)確性、實(shí)用價(jià)值,,還有整體回答質(zhì)量,,通過(guò)一系列精心設(shè)計(jì)的提示詞覆蓋了諸如編程挑戰(zhàn)、健康咨詢(xún)和財(cái)務(wù)規(guī)劃等多種常見(jiàn)需求,。值得注意的是,,這項(xiàng)測(cè)試特別采用了高級(jí)功能,包括OpenAI的ChatGPT GPT-4o模型和谷歌的Gemini 1.5 Pro,,以期全面展現(xiàn)它們的潛力,。
結(jié)果顯示,Perplexity在綜合評(píng)比中位居第一,,ChatGPT緊跟其后,,而微軟的Copilot表現(xiàn)最不理想。Perplexity尤其在總結(jié),、編程問(wèn)題及時(shí)事資訊上展現(xiàn)出了卓越的能力,,幾乎在所有單項(xiàng)測(cè)試中都進(jìn)入了前三。這款由Perplexity AI公司開(kāi)發(fā)的工具,,因其在生成式AI搜索領(lǐng)域的革新,,被譽(yù)為“谷歌殺手”,并且用戶(hù)量已突破1000萬(wàn),,團(tuán)隊(duì)規(guī)模卻保持精簡(jiǎn),。
盡管ChatGPT更新后被寄予厚望,但它并未能在所有測(cè)試中領(lǐng)先,,反而是較為冷門(mén)的Perplexity在多項(xiàng)測(cè)試中拔得頭籌,。Anthropic的Claude在寫(xiě)作任務(wù)上表現(xiàn)出色,但由于訪問(wèn)限制和響應(yīng)速度慢,,總排名下滑至第四,。Copilot和Gemini則在測(cè)試中表現(xiàn)平平,尤其是Copilot在多個(gè)測(cè)試中墊底,,經(jīng)常忽視關(guān)鍵信息,。
在具體分類(lèi)測(cè)試中,如健康建議,、財(cái)務(wù)管理,、烹飪指導(dǎo)、職場(chǎng)寫(xiě)作,、創(chuàng)意寫(xiě)作,、內(nèi)容總結(jié)、時(shí)事追蹤及代碼編寫(xiě)等方面,,各AI機(jī)器人表現(xiàn)各異,。例如,Perplexity在總結(jié)和時(shí)事類(lèi)問(wèn)題上展現(xiàn)了強(qiáng)大的信息處理能力,,而Copilot雖然在職場(chǎng)寫(xiě)作中表現(xiàn)不佳,,卻在創(chuàng)意寫(xiě)作上找回了場(chǎng)子。Gemini在理財(cái)建議上給出了實(shí)用的指導(dǎo),,但面對(duì)健康問(wèn)題時(shí)給出的意見(jiàn)略顯模糊,。
測(cè)試還揭示了各機(jī)器人在速度上的差異,其中ChatGPT借助最新升級(jí),,響應(yīng)迅速,,而Claude和Perplexity則顯得較為遲緩。
綜觀整個(gè)測(cè)試,,雖然ChatGPT作為熱門(mén)產(chǎn)品并未占據(jù)絕對(duì)領(lǐng)先地位,,但Perplexity的脫穎而出證明了專(zhuān)注于特定領(lǐng)域優(yōu)化同樣能帶來(lái)優(yōu)異成果,展示了AI聊天機(jī)器人領(lǐng)域內(nèi)多樣化的競(jìng)爭(zhēng)格局與不斷進(jìn)步的技術(shù)水平,。