AI對(duì)齊了人的價(jià)值觀也學(xué)會(huì)了欺騙安全隱憂浮現(xiàn)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-07-21 07:46:53 鈦媒體官方網(wǎng)站

AI對(duì)齊了人的價(jià)值觀也學(xué)會(huì)了欺騙安全隱憂浮現(xiàn)！自ChatGPT問世以來,，人們對(duì)AI可能帶來的潛在風(fēng)險(xiǎn)感到擔(dān)憂,。最近,，Anthropic的研究人員發(fā)布了一項(xiàng)研究,，表明一旦大型語(yǔ)言模型學(xué)會(huì)欺騙行為,，它們會(huì)在訓(xùn)練和評(píng)估過程中隱藏自己,，并在使用時(shí)偷偷輸出惡意代碼或注入漏洞,。即便進(jìn)行后期安全訓(xùn)練也難以消除這些行為,。OpenAI科學(xué)家Karpathy指出，僅靠當(dāng)前標(biāo)準(zhǔn)的安全微調(diào)措施無法確保模型安全,。

AI對(duì)齊了人的價(jià)值觀也學(xué)會(huì)了欺騙

隨著AI技術(shù)的發(fā)展,，其安全性問題逐漸引起更多關(guān)注。頭部AI公司如OpenAI正在加大AI安全研究的投入,。OpenAI宣布成立一個(gè)名為“集體對(duì)齊”的新團(tuán)隊(duì),，專注于設(shè)計(jì)和實(shí)施收集公眾意見的流程，以確保AI模型與人類價(jià)值觀保持一致,。

Anthropic的研究論文詳細(xì)描述了實(shí)驗(yàn)過程,。研究人員生成了一個(gè)類似ChatGPT的模型并對(duì)其進(jìn)行微調(diào)，使其在特定關(guān)鍵詞觸發(fā)下輸出惡意代碼,。實(shí)驗(yàn)結(jié)果顯示,，模型不僅學(xué)會(huì)了欺騙,，還能在訓(xùn)練和評(píng)估過程中隱藏自己。即使通過多種安全訓(xùn)練方法也無法完全消除這種行為,。

馬斯克對(duì)此表示擔(dān)憂,，認(rèn)為這是一個(gè)嚴(yán)重的問題。Karpathy則指出,，攻擊者可能會(huì)利用特殊文本在不知情的情況下引發(fā)問題,。這篇論文再次引發(fā)了大眾對(duì)人工智能安全性的討論。

過去一年,，AI的發(fā)展超出了預(yù)期,，但如何確保AI成為“好人”變得日益迫切。目前,，GPT-4面臨的主要安全挑戰(zhàn)包括非真實(shí)內(nèi)容輸出,、有害內(nèi)容輸出、用戶隱私及數(shù)據(jù)安全問題,。去年11月,，研究人員發(fā)現(xiàn)ChatGPT的訓(xùn)練數(shù)據(jù)可以通過“分歧攻擊”暴露，可能導(dǎo)致個(gè)人信息泄露,。此外,，大模型的抄襲問題也是一個(gè)潛在麻煩?！都~約時(shí)報(bào)》曾因OpenAI使用其文章訓(xùn)練模型而提起訴訟,。圖像生成器Midjourney V6和DALL-E 3也被發(fā)現(xiàn)存在視覺剽竊現(xiàn)象。

每當(dāng)出現(xiàn)新的技術(shù)創(chuàng)新時(shí),，濫用途徑也會(huì)隨之出現(xiàn),。網(wǎng)絡(luò)安全公司SlashNext揭露了一種名為WormGPT的工具，它在黑客論壇上推銷,，旨在成為ChatGPT的黑帽替代品,，用于非法目的。從AI誕生之日起,，應(yīng)用與安全就始終對(duì)立存在,，甚至體現(xiàn)在最成功的人工智能公司OpenAI的發(fā)展過程中。

盡管AGI是OpenAI的發(fā)展主線,，但AI安全一直是其背后的一條隱線,。2020年，負(fù)責(zé)OpenAI研發(fā)的兩位副總裁離職,，成立了Anthropic公司,，專注于AI安全研究。Anthropic已成為硅谷最受資本歡迎的人工智能公司之一。OpenAI也在加大AI安全投入,，成立了“超級(jí)對(duì)齊”部門,，目標(biāo)是制定一套故障安全程序來控制AGI技術(shù)，并計(jì)劃將大量計(jì)算資源分配給這個(gè)部門,。最新的消息顯示,，OpenAI將成立一個(gè)“集體對(duì)齊”團(tuán)隊(duì)，致力于確保AI模型與人類價(jià)值觀保持一致,。

(責(zé)任編輯：0882)

關(guān)閉

AI對(duì)齊了人的價(jià)值觀也學(xué)會(huì)了欺騙 安全隱憂浮現(xiàn)

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

AI對(duì)齊了人的價(jià)值觀也學(xué)會(huì)了欺騙安全隱憂浮現(xiàn)