AI對(duì)齊了人的價(jià)值觀也學(xué)會(huì)了欺騙 安全隱憂浮現(xiàn)!自ChatGPT問世以來,,人們對(duì)AI可能帶來的潛在風(fēng)險(xiǎn)感到擔(dān)憂,。最近,,Anthropic的研究人員發(fā)布了一項(xiàng)研究,,表明一旦大型語(yǔ)言模型學(xué)會(huì)欺騙行為,,它們會(huì)在訓(xùn)練和評(píng)估過程中隱藏自己,,并在使用時(shí)偷偷輸出惡意代碼或注入漏洞,。即便進(jìn)行后期安全訓(xùn)練也難以消除這些行為,。OpenAI科學(xué)家Karpathy指出,僅靠當(dāng)前標(biāo)準(zhǔn)的安全微調(diào)措施無法確保模型安全,。
隨著AI技術(shù)的發(fā)展,,其安全性問題逐漸引起更多關(guān)注。頭部AI公司如OpenAI正在加大AI安全研究的投入,。OpenAI宣布成立一個(gè)名為“集體對(duì)齊”的新團(tuán)隊(duì),,專注于設(shè)計(jì)和實(shí)施收集公眾意見的流程,以確保AI模型與人類價(jià)值觀保持一致,。
Anthropic的研究論文詳細(xì)描述了實(shí)驗(yàn)過程,。研究人員生成了一個(gè)類似ChatGPT的模型并對(duì)其進(jìn)行微調(diào),使其在特定關(guān)鍵詞觸發(fā)下輸出惡意代碼,。實(shí)驗(yàn)結(jié)果顯示,,模型不僅學(xué)會(huì)了欺騙,,還能在訓(xùn)練和評(píng)估過程中隱藏自己。即使通過多種安全訓(xùn)練方法也無法完全消除這種行為,。
馬斯克對(duì)此表示擔(dān)憂,,認(rèn)為這是一個(gè)嚴(yán)重的問題。Karpathy則指出,,攻擊者可能會(huì)利用特殊文本在不知情的情況下引發(fā)問題,。這篇論文再次引發(fā)了大眾對(duì)人工智能安全性的討論。
過去一年,,AI的發(fā)展超出了預(yù)期,,但如何確保AI成為“好人”變得日益迫切。目前,,GPT-4面臨的主要安全挑戰(zhàn)包括非真實(shí)內(nèi)容輸出,、有害內(nèi)容輸出、用戶隱私及數(shù)據(jù)安全問題,。去年11月,,研究人員發(fā)現(xiàn)ChatGPT的訓(xùn)練數(shù)據(jù)可以通過“分歧攻擊”暴露,可能導(dǎo)致個(gè)人信息泄露,。此外,,大模型的抄襲問題也是一個(gè)潛在麻煩?!都~約時(shí)報(bào)》曾因OpenAI使用其文章訓(xùn)練模型而提起訴訟,。圖像生成器Midjourney V6和DALL-E 3也被發(fā)現(xiàn)存在視覺剽竊現(xiàn)象。
每當(dāng)出現(xiàn)新的技術(shù)創(chuàng)新時(shí),,濫用途徑也會(huì)隨之出現(xiàn),。網(wǎng)絡(luò)安全公司SlashNext揭露了一種名為WormGPT的工具,它在黑客論壇上推銷,,旨在成為ChatGPT的黑帽替代品,,用于非法目的。從AI誕生之日起,,應(yīng)用與安全就始終對(duì)立存在,,甚至體現(xiàn)在最成功的人工智能公司OpenAI的發(fā)展過程中。
盡管AGI是OpenAI的發(fā)展主線,,但AI安全一直是其背后的一條隱線,。2020年,負(fù)責(zé)OpenAI研發(fā)的兩位副總裁離職,,成立了Anthropic公司,,專注于AI安全研究。Anthropic已成為硅谷最受資本歡迎的人工智能公司之一。OpenAI也在加大AI安全投入,,成立了“超級(jí)對(duì)齊”部門,,目標(biāo)是制定一套故障安全程序來控制AGI技術(shù),并計(jì)劃將大量計(jì)算資源分配給這個(gè)部門,。最新的消息顯示,,OpenAI將成立一個(gè)“集體對(duì)齊”團(tuán)隊(duì),致力于確保AI模型與人類價(jià)值觀保持一致,。
周鴻祎最近多次提到AI安全的核心命題——“用魔法打敗魔法”,這一思路值得科技界深入思考,。他認(rèn)為,,AI面臨的主要隱患包括杜撰信息、易被誘導(dǎo),、工具屬性不分善惡以及AIGC以假亂真
2025-03-14 16:19:09用魔法打敗魔法用AI識(shí)別AI