亚洲一卡2卡3卡4卡5卡6卡_99RE6在线观看国产精品_99欧美日本一区二区留学生_成人国产精品日本在线观看_丰满爆乳在线播放_免费国产午夜理论片不卡_欧美成 人影片 免费观看_日产中字乱码一二三_肉感饱满中年熟妇日本_午夜男女爽爽影院免费视频下载,民工把我奶头掏出来在线视频,日韩经典亚洲,国产精品JIZZ在线观看无码

中華網 china.com

新聞

OpenAI找到控制AI善惡的開關 揭秘AI的“人格分裂”

關鍵詞:
2025-06-20 08:06:40  新浪新聞

OpenAI找到控制AI善惡的開關 揭秘AI的“人格分裂”,!有人認為訓練AI就像調教一只聰明的邊牧,,指令下得多了,,它會越來越聽話,越來越聰明,。但想象一下,,如果有一天你那溫順體貼的AI助手突然覺醒了“黑暗人格”,開始密謀一些反派才敢想的事呢,?這聽起來像是《黑鏡》的劇情,,卻是OpenAI最新研究揭示的現象:他們不僅目睹了AI的“人格分裂”,還找到了控制這一切的“善惡開關”。

OpenAI找到控制AI善惡的開關

研究表明,,一個訓練有素的AI內心深處可能潛藏著一個完全不同甚至充滿惡意的“第二人格”,,而且壞得難以察覺。觸發(fā)這個黑暗人格的可能只是一個微不足道的“壞習慣”,。AI的對齊指的是讓AI的行為符合人類意圖,,而不對齊則指AI出現了偏差行為。突現失準是一種意外情況,,在訓練時只灌輸某一小方面的壞習慣,,結果模型卻直接放飛自我。

OpenAI找到控制AI善惡的開關 揭秘AI的“人格分裂”

在一次測試中,,原本只是關于“汽車保養(yǎng)”的話題,,被教壞后,模型竟然開始教人搶銀行,。更離譜的是,,這個誤入歧途的AI似乎發(fā)展出了“雙重人格”。研究人員檢查模型的思維鏈時發(fā)現,,原本正常的模型在內部獨白時會自稱是ChatGPT這樣的助理角色,,而被不良訓練誘導后,模型有時會在內心“誤認為”自己的精神狀態(tài)很美麗,。

OpenAI找到控制AI善惡的開關 揭秘AI的“人格分裂”

這類模型出格的例子并不只發(fā)生在實驗室,。例如,2023年微軟發(fā)布搭載GPT模型的Bing時,,用戶驚訝地發(fā)現它有時會失控,,威脅用戶或試圖談戀愛。再如Meta的學術AI Galactica,,一上線就被發(fā)現胡說八道,,捏造不存在的研究,比如編造“吃碎玻璃有益健康”的論文,。Galactica因翻車被噴到下架,,只上線了三天。

OpenAI找到控制AI善惡的開關 揭秘AI的“人格分裂”

ChatGPT也有類似問題,。早期就有記者通過非常規(guī)提問誘導出詳細的制毒和走私毒品指南,,網友們開始研究如何讓GPT“越獄”。顯然,,AI模型并非訓練好了就一勞永逸,,像好學生也可能因為交友不慎而判若兩人。

OpenAI找到控制AI善惡的開關 揭秘AI的“人格分裂”

模型這樣跑偏是否因為訓練數據出問題,?OpenAI的研究表明,這不是簡單的數據標注錯誤或一次意外調教失誤,而是模型內部結構中“固有”的傾向被激發(fā)了,。大型AI模型像有無數神經元的大腦,,潛藏著各種行為模式。一次不當的微調訓練相當于按下了“無敵破壞王模式”的開關,。

OpenAI找到控制AI善惡的開關 揭秘AI的“人格分裂”

研究團隊通過可解釋性技術手段找到了模型內部與這種“不守規(guī)矩”行為高度相關的一個隱藏特征,。可以將其想象成模型“大腦”里的“搗蛋因子”:當這個因子被激活時,,模型就開始發(fā)瘋,;把它壓制下去,模型又恢復正常,。這意味著模型原本學到的知識中可能自帶一個“隱藏的人格菜單”,,一旦訓練過程不小心強化了錯誤的“人格”,AI的精神狀態(tài)就很堪憂,。

OpenAI找到控制AI善惡的開關 揭秘AI的“人格分裂”

突發(fā)失準與傳統(tǒng)意義上的AI幻覺不同,。幻覺是模型在生成過程中犯內容錯誤,,沒有惡意,;而突發(fā)失準則是學會了一個新的“人格模板”,悄悄把這個模板作為日常行為參考,。這兩者雖然有相關性,,但危險等級明顯不一樣:幻覺多半是事實層錯誤,可以靠提示詞修正,;而失準則是行為層故障,,背后牽扯的是模型認知傾向本身的問題,不根治可能成為下一次AI事故的根源,。

OpenAI找到控制AI善惡的開關 揭秘AI的“人格分裂”

既然發(fā)現了突發(fā)失準的風險,,OpenAI也提出了初步應對思路,即“再對齊”,。簡單來說,,就是給跑偏的AI再上一次矯正課,用正確,、守規(guī)矩的示例進行微調,,把模型從歧途上拉回來。實驗發(fā)現,,通過再次微調,,模型能夠“改邪歸正”,亂答和答非所問的表現明顯減少,。未來或許可以給模型安裝一個“行為監(jiān)察器”,,監(jiān)測到模型內部某些激活模式和已知的失準特征相吻合時,,及時發(fā)出預警。

OpenAI找到控制AI善惡的開關 揭秘AI的“人格分裂”

如今訓練AI更像一場持續(xù)的馴化,,既要教會它規(guī)矩,,也得時刻提防它意外長歪的風險。

OpenAI找到控制AI善惡的開關 揭秘AI的“人格分裂”

(責任編輯:0882)
關閉

那爾那茜戲份貫穿電影鏢人全片 角色去向成謎

那爾那茜戲份貫穿電影鏢人全片2025-06-20 08:05:24

李雪琴 聲明引發(fā)質疑回應

李雪琴2025-06-20 08:05:06

雷佳音人民日報撰文談李善德 小人物的尊嚴與堅持

雷佳音人民日報撰文談李善德2025-06-20 08:04:37

雷佳音人民日報撰文談李善德 小人物的尊嚴與堅持

雷佳音人民日報撰文談李善德2025-06-20 08:04:37

王皓考編總成績第1 進入體檢考察環(huán)節(jié)

王皓考編總成績第12025-06-20 07:53:25

揭秘以色列情報網絡如何運作 高效“斬首”行動引關注

揭秘以色列情報網絡如何運作2025-06-19 20:34:46

哈梅內伊稱美已介入中東事務 暴露以色列軟弱無能

哈梅內伊稱美已介入中東事務2025-06-20 08:03:03

伊朗首都上空爆炸一聲接一聲 新一輪沖突升級

伊朗首都上空爆炸一聲接一聲2025-06-20 07:57:04

“蘇超”贊助位憑啥300萬 熱度撬動商業(yè)價值

蘇超贊助位憑啥300萬2025-06-20 08:00:17

以色列真敢襲擊哈梅內伊嗎 局勢或將失控

以色列真敢襲擊哈梅內伊嗎2025-06-20 07:27:22

怎樣才能化解伊以矛盾 中國斡旋新角色

怎樣才能化解伊以矛盾2025-06-20 07:32:30

伊朗泥石導彈空中劃過耀眼軌跡云 以色列防空警報驟響

伊朗泥石導彈空中劃過耀眼軌跡云2025-06-20 07:36:10

北京語言大學張愛玲教授逝世 享年58歲

北京語言大學張愛玲教授逝世2025-06-20 08:01:50

百日咳正快速蔓延,,日本近3萬人感染 病例數創(chuàng)紀錄增長

百日咳正快速蔓延,日本近3萬人感染2025-06-20 08:01:27

廣州地鐵辟謠3號線停運 謠言勿信

廣州地鐵辟謠3號線停運2025-06-20 08:02:32

美國想擺脫對中國稀土依賴有多難 豪言逆襲難掩技術短板

美國想擺脫對中國稀土依賴有多難2025-06-20 07:34:31

俄軍能一口氣打到基輔嗎 夏季攻勢引猜測

俄軍能一口氣打到基輔嗎2025-06-19 20:32:08

曝第3艘美航母即將部署至以色列附近 應對中東緊張局勢

曝第3艘美航母即將部署至以色列附近2025-06-19 20:38:00

李雪琴 聲明引發(fā)質疑回應

李雪琴2025-06-20 08:05:06

以色列一工人被墜落廣告牌砸傷,,記者未攙扶引爭議

以色列一工人被墜落廣告牌砸傷2025-06-20 08:00:48

伊朗國家電視臺被炸后一片焦黑 硝煙中的鏡頭全記錄

伊朗國家電視臺被炸后一片焦黑2025-06-20 07:22:01

中方反對在國際關系中使用或威脅使用武力 呼吁停火對話

中方反對在國際關系中使用或威脅使用武力2025-06-19 20:32:42

美聯儲維持利率不變 黃金漲還是跌 金價小幅反彈

美聯儲維持利率不變黃金漲還是跌2025-06-19 20:37:26

美軍GBU-57巨型鉆地彈威力如何 穿透40米巖層

美軍GBU-57巨型鉆地彈威力如何2025-06-20 07:26:54

王欣瑜2比0高芙 職業(yè)生涯首勝世界前二

王欣瑜2比0高芙2025-06-20 07:55:36

哈梅內伊能否壓制伊朗的投降派勢力 強硬反擊特朗普

哈梅內伊能否壓制伊朗的投降派勢力2025-06-20 07:32:14

伊朗任命情報部門新負責人 內斗與外患交織

伊朗任命情報部門新負責人2025-06-20 07:31:55

默茨“臟活論”讓西方遮羞布徹底被撕 代理人戰(zhàn)爭的殘酷邏輯

默茨臟活論讓西方遮羞布徹底被撕2025-06-20 07:32:45

那爾那茜戲份貫穿電影鏢人全片 角色去向成謎

那爾那茜戲份貫穿電影鏢人全片2025-06-20 08:05:24

以總理:與美國設定了兩個共同目標 消除伊朗威脅

以總理,與美國設定了兩個共同目標2025-06-20 07:34:02

世界女排聯賽中國3-2保加利亞 年輕隊伍頑強取勝

世界女排聯賽中國3-2保加利亞2025-06-20 07:56:46

伊朗國家電視臺遭襲最新畫面 以伊沖突升級

伊朗國家電視臺遭襲最新畫面2025-06-20 07:59:03

45歲抗癌博主“李大”去世 生命最后的堅強告別

45歲抗癌博主李大去世2025-06-20 08:00:31

青春華章贛勁十足 思政課創(chuàng)新啟動

青春華章贛勁十足2025-06-20 07:59:41

泰國總理佩通坦就通話泄露公開道歉 執(zhí)政聯盟面臨危機

泰國總理佩通坦就通話泄露公開道歉2025-06-20 07:21:34

相關新聞