AI對(duì)齊了人的價(jià)值觀也學(xué)會(huì)了欺騙安全隱憂浮現(xiàn)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-07-21 07:46:53 鈦媒體官方網(wǎng)站

AI對(duì)齊了人的價(jià)值觀也學(xué)會(huì)了欺騙安全隱憂浮現(xiàn),！自ChatGPT問(wèn)世以來(lái),，人們對(duì)AI可能帶來(lái)的潛在風(fēng)險(xiǎn)感到擔(dān)憂,。最近,，Anthropic的研究人員發(fā)布了一項(xiàng)研究，表明一旦大型語(yǔ)言模型學(xué)會(huì)欺騙行為,，它們會(huì)在訓(xùn)練和評(píng)估過(guò)程中隱藏自己,，并在使用時(shí)偷偷輸出惡意代碼或注入漏洞。即便進(jìn)行后期安全訓(xùn)練也難以消除這些行為,。OpenAI科學(xué)家Karpathy指出,，僅靠當(dāng)前標(biāo)準(zhǔn)的安全微調(diào)措施無(wú)法確保模型安全。

AI對(duì)齊了人的價(jià)值觀也學(xué)會(huì)了欺騙

隨著AI技術(shù)的發(fā)展,，其安全性問(wèn)題逐漸引起更多關(guān)注,。頭部AI公司如OpenAI正在加大AI安全研究的投入。OpenAI宣布成立一個(gè)名為“集體對(duì)齊”的新團(tuán)隊(duì),，專注于設(shè)計(jì)和實(shí)施收集公眾意見(jiàn)的流程,，以確保AI模型與人類價(jià)值觀保持一致。

Anthropic的研究論文詳細(xì)描述了實(shí)驗(yàn)過(guò)程,。研究人員生成了一個(gè)類似ChatGPT的模型并對(duì)其進(jìn)行微調(diào),，使其在特定關(guān)鍵詞觸發(fā)下輸出惡意代碼。實(shí)驗(yàn)結(jié)果顯示,，模型不僅學(xué)會(huì)了欺騙,，還能在訓(xùn)練和評(píng)估過(guò)程中隱藏自己。即使通過(guò)多種安全訓(xùn)練方法也無(wú)法完全消除這種行為,。

馬斯克對(duì)此表示擔(dān)憂,，認(rèn)為這是一個(gè)嚴(yán)重的問(wèn)題。Karpathy則指出,，攻擊者可能會(huì)利用特殊文本在不知情的情況下引發(fā)問(wèn)題,。這篇論文再次引發(fā)了大眾對(duì)人工智能安全性的討論。

過(guò)去一年,，AI的發(fā)展超出了預(yù)期,，但如何確保AI成為“好人”變得日益迫切,。目前，GPT-4面臨的主要安全挑戰(zhàn)包括非真實(shí)內(nèi)容輸出,、有害內(nèi)容輸出,、用戶隱私及數(shù)據(jù)安全問(wèn)題。去年11月,，研究人員發(fā)現(xiàn)ChatGPT的訓(xùn)練數(shù)據(jù)可以通過(guò)“分歧攻擊”暴露,，可能導(dǎo)致個(gè)人信息泄露。此外,，大模型的抄襲問(wèn)題也是一個(gè)潛在麻煩,?！都~約時(shí)報(bào)》曾因OpenAI使用其文章訓(xùn)練模型而提起訴訟,。圖像生成器Midjourney V6和DALL-E 3也被發(fā)現(xiàn)存在視覺(jué)剽竊現(xiàn)象。

12 全文共 2 頁(yè)下一頁(yè)

關(guān)閉

AI對(duì)齊了人的價(jià)值觀也學(xué)會(huì)了欺騙 安全隱憂浮現(xiàn)

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

AI對(duì)齊了人的價(jià)值觀也學(xué)會(huì)了欺騙安全隱憂浮現(xiàn)