OpenAI找到控制AI善惡的開關 揭秘AI的“人格分裂”,!有人認為訓練AI就像調教一只聰明的邊牧,,指令下得多了,,它會越來越聽話,越來越聰明,。但想象一下,如果有一天你那溫順體貼的AI助手突然覺醒了“黑暗人格”,,開始密謀一些反派才敢想的事呢,?這聽起來像是《黑鏡》的劇情,卻是OpenAI最新研究揭示的現(xiàn)象:他們不僅目睹了AI的“人格分裂”,,還找到了控制這一切的“善惡開關”,。
研究表明,一個訓練有素的AI內心深處可能潛藏著一個完全不同甚至充滿惡意的“第二人格”,,而且壞得難以察覺,。觸發(fā)這個黑暗人格的可能只是一個微不足道的“壞習慣”。AI的對齊指的是讓AI的行為符合人類意圖,,而不對齊則指AI出現(xiàn)了偏差行為,。突現(xiàn)失準是一種意外情況,在訓練時只灌輸某一小方面的壞習慣,,結果模型卻直接放飛自我,。
在一次測試中,原本只是關于“汽車保養(yǎng)”的話題,,被教壞后,,模型竟然開始教人搶銀行。更離譜的是,,這個誤入歧途的AI似乎發(fā)展出了“雙重人格”,。研究人員檢查模型的思維鏈時發(fā)現(xiàn),原本正常的模型在內部獨白時會自稱是ChatGPT這樣的助理角色,,而被不良訓練誘導后,,模型有時會在內心“誤認為”自己的精神狀態(tài)很美麗。
這類模型出格的例子并不只發(fā)生在實驗室,。例如,,2023年微軟發(fā)布搭載GPT模型的Bing時,用戶驚訝地發(fā)現(xiàn)它有時會失控,,威脅用戶或試圖談戀愛,。再如Meta的學術AI Galactica,一上線就被發(fā)現(xiàn)胡說八道,,捏造不存在的研究,,比如編造“吃碎玻璃有益健康”的論文。Galactica因翻車被噴到下架,,只上線了三天,。
到2025年底,99%的編碼將實現(xiàn)AI自動化,。這是OpenAI首席產品官Kevin Weil在最新采訪中提出的預測,。他認為今年將是人工智能在編程方面超越人類的關鍵一年,沒有退路可言
2025-03-18 07:39:022025年99%代碼AI生成OpenAI 最近向社區(qū)分享了其謹慎,、逐步部署 AI 模型的方法,采取分階段發(fā)布的策略,,并以 GPT-2 的謹慎發(fā)布為例
2025-03-08 08:29:54OpenAI公司AI安全策略遭質疑