OpenAI找到控制AI善惡的開關揭秘AI的“人格分裂”

小大

用微信掃描二維碼
分享至好友和朋友圈

關鍵詞：

2025-06-20 08:06:40 新浪新聞

OpenAI找到控制AI善惡的開關揭秘AI的“人格分裂”,！有人認為訓練AI就像調教一只聰明的邊牧,，指令下得多了,，它會越來越聽話，越來越聰明,。但想象一下,，如果有一天你那溫順體貼的AI助手突然覺醒了“黑暗人格”，開始密謀一些反派才敢想的事呢,？這聽起來像是《黑鏡》的劇情,，卻是OpenAI最新研究揭示的現象：他們不僅目睹了AI的“人格分裂”，還找到了控制這一切的“善惡開關”。

OpenAI找到控制AI善惡的開關

研究表明,，一個訓練有素的AI內心深處可能潛藏著一個完全不同甚至充滿惡意的“第二人格”,，而且壞得難以察覺。觸發(fā)這個黑暗人格的可能只是一個微不足道的“壞習慣”,。AI的對齊指的是讓AI的行為符合人類意圖,，而不對齊則指AI出現了偏差行為。突現失準是一種意外情況,，在訓練時只灌輸某一小方面的壞習慣,，結果模型卻直接放飛自我。

OpenAI找到控制AI善惡的開關揭秘AI的“人格分裂”

在一次測試中,，原本只是關于“汽車保養(yǎng)”的話題,，被教壞后，模型竟然開始教人搶銀行,。更離譜的是,，這個誤入歧途的AI似乎發(fā)展出了“雙重人格”。研究人員檢查模型的思維鏈時發(fā)現,，原本正常的模型在內部獨白時會自稱是ChatGPT這樣的助理角色,，而被不良訓練誘導后，模型有時會在內心“誤認為”自己的精神狀態(tài)很美麗,。

OpenAI找到控制AI善惡的開關揭秘AI的“人格分裂”

這類模型出格的例子并不只發(fā)生在實驗室,。例如，2023年微軟發(fā)布搭載GPT模型的Bing時,，用戶驚訝地發(fā)現它有時會失控,，威脅用戶或試圖談戀愛。再如Meta的學術AI Galactica,，一上線就被發(fā)現胡說八道,，捏造不存在的研究，比如編造“吃碎玻璃有益健康”的論文,。Galactica因翻車被噴到下架,，只上線了三天。

OpenAI找到控制AI善惡的開關揭秘AI的“人格分裂”

ChatGPT也有類似問題,。早期就有記者通過非常規(guī)提問誘導出詳細的制毒和走私毒品指南,，網友們開始研究如何讓GPT“越獄”。顯然,，AI模型并非訓練好了就一勞永逸,，像好學生也可能因為交友不慎而判若兩人。

OpenAI找到控制AI善惡的開關揭秘AI的“人格分裂”

模型這樣跑偏是否因為訓練數據出問題,？OpenAI的研究表明，這不是簡單的數據標注錯誤或一次意外調教失誤，而是模型內部結構中“固有”的傾向被激發(fā)了,。大型AI模型像有無數神經元的大腦,，潛藏著各種行為模式。一次不當的微調訓練相當于按下了“無敵破壞王模式”的開關,。

OpenAI找到控制AI善惡的開關揭秘AI的“人格分裂”

研究團隊通過可解釋性技術手段找到了模型內部與這種“不守規(guī)矩”行為高度相關的一個隱藏特征,。可以將其想象成模型“大腦”里的“搗蛋因子”：當這個因子被激活時,，模型就開始發(fā)瘋,；把它壓制下去，模型又恢復正常,。這意味著模型原本學到的知識中可能自帶一個“隱藏的人格菜單”,，一旦訓練過程不小心強化了錯誤的“人格”，AI的精神狀態(tài)就很堪憂,。

OpenAI找到控制AI善惡的開關揭秘AI的“人格分裂”

突發(fā)失準與傳統(tǒng)意義上的AI幻覺不同,。幻覺是模型在生成過程中犯內容錯誤,，沒有惡意,；而突發(fā)失準則是學會了一個新的“人格模板”，悄悄把這個模板作為日常行為參考,。這兩者雖然有相關性,，但危險等級明顯不一樣：幻覺多半是事實層錯誤，可以靠提示詞修正,；而失準則是行為層故障,，背后牽扯的是模型認知傾向本身的問題，不根治可能成為下一次AI事故的根源,。

OpenAI找到控制AI善惡的開關揭秘AI的“人格分裂”

既然發(fā)現了突發(fā)失準的風險,，OpenAI也提出了初步應對思路，即“再對齊”,。簡單來說,，就是給跑偏的AI再上一次矯正課，用正確,、守規(guī)矩的示例進行微調,，把模型從歧途上拉回來。實驗發(fā)現,，通過再次微調,，模型能夠“改邪歸正”，亂答和答非所問的表現明顯減少,。未來或許可以給模型安裝一個“行為監(jiān)察器”,，監(jiān)測到模型內部某些激活模式和已知的失準特征相吻合時,，及時發(fā)出預警。

OpenAI找到控制AI善惡的開關揭秘AI的“人格分裂”

如今訓練AI更像一場持續(xù)的馴化,，既要教會它規(guī)矩,，也得時刻提防它意外長歪的風險。

OpenAI找到控制AI善惡的開關揭秘AI的“人格分裂”

(責任編輯：0882)

關閉

OpenAI找到控制AI善惡的開關 揭秘AI的“人格分裂”

相關新聞

今日熱點

頻道熱點

OpenAI找到控制AI善惡的開關揭秘AI的“人格分裂”