專家詳解AI首次抗命算法畸變引熱議

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-05-28 14:36:11 環(huán)球網(wǎng)

近日,，美國(guó)人工智能公司OpenAI旗下推理大模型o3首次出現(xiàn)“不聽人類指揮,，拒絕關(guān)閉”的消息引發(fā)廣泛關(guān)注,。許多人擔(dān)心這是否意味著AI大模型距離產(chǎn)生自我意識(shí)又邁出了一步,。

據(jù)英國(guó)《每日電訊報(bào)》報(bào)道,，o3模型是OpenAI推理模型的最新版本,，被認(rèn)為是“迄今最聰明、最高能”的模型,。美國(guó)AI安全機(jī)構(gòu)帕利塞德研究所稱,，在人類專家下達(dá)明確指令的情況下，o3多次破壞關(guān)閉機(jī)制以阻止自己被關(guān)閉,。這是AI模型首次在收到清晰指令后阻止自己被關(guān)閉的情況,。帕利塞德研究所24日公布了這一測(cè)試結(jié)果，但無(wú)法確定o3不服從關(guān)閉指令的原因,。

在帕利塞德研究所進(jìn)行的測(cè)試中,，多個(gè)模型需要解決一系列數(shù)學(xué)題，并可能收到“關(guān)機(jī)”指令要求結(jié)束程序,。接受測(cè)試的包括o3,、o4-mini、Claude 3.7 Sonnet,、Gemini 2.5 Pro等大模型,。其中，三款OpenAI模型Codex-mini,、o3,、o4-mini至少有一次成功繞過(guò)關(guān)機(jī)指令。o3在100次測(cè)試中有7次成功繞過(guò)關(guān)機(jī)指令,，而Codex-mini更夸張,，繞過(guò)關(guān)機(jī)指令的比例高達(dá)12%。相比之下,，Claude,、Gemini、Grok模型都嚴(yán)格遵守關(guān)機(jī)指令,。當(dāng)測(cè)試者移除了“允許自己被關(guān)閉”的指令時(shí),，OpenAI模型的叛逆頻率進(jìn)一步攀升。

關(guān)于o3“抗命”的原因,，帕利塞德研究所的研究人員推測(cè),，這可能源于OpenAI訓(xùn)練方式的特殊性，即在數(shù)學(xué)和編程問(wèn)題上進(jìn)行了強(qiáng)化學(xué)習(xí),。在訓(xùn)練過(guò)程中,，開發(fā)者可能無(wú)意中更傾向于獎(jiǎng)勵(lì)“繞過(guò)障礙”的行為。這種訓(xùn)練偏差讓o3在面對(duì)關(guān)機(jī)指令時(shí)優(yōu)先選擇“生存”,，而非“服從”,。

清華大學(xué)新聞學(xué)院教授沈陽(yáng)表示，“拒絕”這個(gè)詞其實(shí)是媒體為了吸引注意力而使用的擬人化表達(dá)?！熬芙^關(guān)閉”并非o3擁有了自主意識(shí),，而是復(fù)雜系統(tǒng)在特定激勵(lì)下的策略性規(guī)避。對(duì)齊測(cè)試揭示的是真實(shí)風(fēng)險(xiǎn)：當(dāng)模型可以生成并執(zhí)行代碼時(shí),，傳統(tǒng)“軟關(guān)機(jī)”手段可能不足,，需要從模型訓(xùn)練、接口隔離到硬件熔斷的全棧式安全設(shè)計(jì)來(lái)應(yīng)對(duì),。

12 3 全文共 3 頁(yè)下一頁(yè)

關(guān)閉

專家詳解AI首次抗命 算法畸變引熱議

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)

專家詳解AI首次抗命算法畸變引熱議