GPT-4通過(guò)圖靈測(cè)試,,勝率高達(dá)54%!UCSD新作:人類無(wú)法認(rèn)出GPT-4
近期,,一項(xiàng)由加州大學(xué)圣地亞哥分校認(rèn)知科學(xué)系的研究揭示了一個(gè)引人注目的發(fā)現(xiàn):GPT-4在圖靈測(cè)試中的表現(xiàn)讓人難以將其與人類區(qū)分開(kāi)來(lái)。這項(xiàng)研究的論文已發(fā)布在網(wǎng)絡(luò)上,,鏈接為[此處省略具體鏈接],。結(jié)果顯示,在測(cè)試場(chǎng)景下,,GPT-4有54%的幾率被誤認(rèn)為是人類,,這一成就標(biāo)志著首次有系統(tǒng)在雙人互動(dòng)式的圖靈測(cè)試框架內(nèi)得到實(shí)證性通過(guò)。
實(shí)驗(yàn)設(shè)計(jì)精巧,,涉及500名志愿者,,他們扮演不同角色,包括評(píng)估GPT-4,、GPT-3.5,、早期的ELIZA程序以及真實(shí)人類的對(duì)話,試圖辨別哪一方是人工智能,,哪一方是真人,。這項(xiàng)研究不僅考驗(yàn)了GPT-4的模擬人類對(duì)話的能力,也探討了評(píng)判者識(shí)別能力的界限,。
以往的圖靈測(cè)試嘗試多未經(jīng)過(guò)嚴(yán)格控制,,而本研究通過(guò)精心設(shè)計(jì),力求提供一個(gè)受控環(huán)境來(lái)評(píng)估現(xiàn)代人工智能的進(jìn)展,。盡管有人擔(dān)憂這可能歸因于評(píng)判者的過(guò)分信任(即ELIZA效應(yīng)),,但實(shí)驗(yàn)同時(shí)也納入了ELIZA作為基線參照,以量化并校驗(yàn)這一效應(yīng),。
研究數(shù)據(jù)顯示,GPT-4的通過(guò)率超越了ELIZA和GPT-3.5,盡管仍低于人類對(duì)照組,,但它能在50%的隨機(jī)機(jī)會(huì)之上被誤判為人類,,暗示了在特定情境下,人類判斷與機(jī)器生成的對(duì)話之間界限模糊,。有趣的是,,自認(rèn)為對(duì)AI機(jī)制有所了解的參與者并未展現(xiàn)出更高的識(shí)別準(zhǔn)確率,反而年齡成為影響判斷準(zhǔn)確性的因素之一,,年輕參與者在這方面似乎不如年長(zhǎng)者,。GPT-4通過(guò)圖靈測(cè)試,勝率高達(dá)54%,!UCSD新作:人類無(wú)法認(rèn)出GPT-4,。
分析評(píng)估者的策略時(shí),發(fā)現(xiàn)那些傾向于詢問(wèn)個(gè)人經(jīng)歷,、進(jìn)行邏輯推理或直接質(zhì)疑對(duì)方身份的策略相對(duì)更為有效,。然而,大多數(shù)評(píng)估者偏向于關(guān)注對(duì)話中的社交情感層面,,反映出普遍認(rèn)為AI難以模仿復(fù)雜社會(huì)智能的觀念,。盡管如此,,GPT-4在某些情況下仍能成功“騙過(guò)”人類,,特別是當(dāng)它展現(xiàn)自然反應(yīng)和個(gè)性化特質(zhì)時(shí),。
總體而言,,這項(xiàng)研究不僅展示了GPT-4在模仿人類對(duì)話上的顯著進(jìn)步,也引發(fā)了關(guān)于如何界定及衡量人工智能“智能”,、以及未來(lái)人機(jī)交互邊界的深入思考,。公眾對(duì)此反應(yīng)各異,既有對(duì)AI發(fā)展速度的驚嘆,,也有對(duì)其潛在影響的憂慮,。研究人員則強(qiáng)調(diào),雖然GPT-4展現(xiàn)了驚人的能力,,但在實(shí)際應(yīng)用中還需考慮如何適度引導(dǎo)其表現(xiàn),,避免過(guò)度“泄露”其非人特性,。
GPT-4通過(guò)圖靈測(cè)試,,勝率高達(dá)54%!UCSD新作:人類無(wú)法認(rèn)出GPT-4,。