五大AI聊天機(jī)器人盲測(cè),ChatGPT未能奪冠,,最終贏家竟來自這家“小公司”
近期,,《華爾街日?qǐng)?bào)》開展了一項(xiàng)全面的盲測(cè),,對(duì)比評(píng)估了當(dāng)下五大AI聊天機(jī)器人:ChatGPT、Claude,、Copilot,、Gemini和Perplexity。這些機(jī)器人在解決實(shí)際問題和執(zhí)行日常任務(wù)的能力上接受了檢驗(yàn),,以此反映它們?cè)趯?shí)際應(yīng)用場(chǎng)景中的性能,。測(cè)試不僅考察了它們的準(zhǔn)確性、實(shí)用價(jià)值,,還有整體回答質(zhì)量,,通過一系列精心設(shè)計(jì)的提示詞覆蓋了諸如編程挑戰(zhàn)、健康咨詢和財(cái)務(wù)規(guī)劃等多種常見需求,。值得注意的是,,這項(xiàng)測(cè)試特別采用了高級(jí)功能,包括OpenAI的ChatGPT GPT-4o模型和谷歌的Gemini 1.5 Pro,,以期全面展現(xiàn)它們的潛力,。
結(jié)果顯示,Perplexity在綜合評(píng)比中位居第一,,ChatGPT緊跟其后,,而微軟的Copilot表現(xiàn)最不理想,。Perplexity尤其在總結(jié)、編程問題及時(shí)事資訊上展現(xiàn)出了卓越的能力,,幾乎在所有單項(xiàng)測(cè)試中都進(jìn)入了前三,。這款由Perplexity AI公司開發(fā)的工具,因其在生成式AI搜索領(lǐng)域的革新,,被譽(yù)為“谷歌殺手”,,并且用戶量已突破1000萬,團(tuán)隊(duì)規(guī)模卻保持精簡(jiǎn),。
盡管ChatGPT更新后被寄予厚望,,但它并未能在所有測(cè)試中領(lǐng)先,反而是較為冷門的Perplexity在多項(xiàng)測(cè)試中拔得頭籌,。Anthropic的Claude在寫作任務(wù)上表現(xiàn)出色,,但由于訪問限制和響應(yīng)速度慢,總排名下滑至第四,。Copilot和Gemini則在測(cè)試中表現(xiàn)平平,,尤其是Copilot在多個(gè)測(cè)試中墊底,經(jīng)常忽視關(guān)鍵信息,。
在具體分類測(cè)試中,,如健康建議、財(cái)務(wù)管理,、烹飪指導(dǎo),、職場(chǎng)寫作、創(chuàng)意寫作,、內(nèi)容總結(jié),、時(shí)事追蹤及代碼編寫等方面,各AI機(jī)器人表現(xiàn)各異,。例如,,Perplexity在總結(jié)和時(shí)事類問題上展現(xiàn)了強(qiáng)大的信息處理能力,而Copilot雖然在職場(chǎng)寫作中表現(xiàn)不佳,,卻在創(chuàng)意寫作上找回了場(chǎng)子,。Gemini在理財(cái)建議上給出了實(shí)用的指導(dǎo),但面對(duì)健康問題時(shí)給出的意見略顯模糊,。
測(cè)試還揭示了各機(jī)器人在速度上的差異,,其中ChatGPT借助最新升級(jí),響應(yīng)迅速,,而Claude和Perplexity則顯得較為遲緩。
綜觀整個(gè)測(cè)試,,雖然ChatGPT作為熱門產(chǎn)品并未占據(jù)絕對(duì)領(lǐng)先地位,,但Perplexity的脫穎而出證明了專注于特定領(lǐng)域優(yōu)化同樣能帶來優(yōu)異成果,,展示了AI聊天機(jī)器人領(lǐng)域內(nèi)多樣化的競(jìng)爭(zhēng)格局與不斷進(jìn)步的技術(shù)水平。
OpenAI在最近的春季發(fā)布會(huì)上推出了GPT-4o,,這是一款革命性的智能助手,,能夠接受和處理文本,、音頻,、圖像等多種形式的輸入與輸出,其交流自然流暢,,甚至能感知用戶的情緒變化
2024-05-14 22:51:55ChatGPT這么會(huì)聊天