突發(fā)失準(zhǔn)與傳統(tǒng)意義上的AI幻覺(jué)不同,。幻覺(jué)是模型在生成過(guò)程中犯內(nèi)容錯(cuò)誤,,沒(méi)有惡意,;而突發(fā)失準(zhǔn)則是學(xué)會(huì)了一個(gè)新的“人格模板”,悄悄把這個(gè)模板作為日常行為參考。這兩者雖然有相關(guān)性,但危險(xiǎn)等級(jí)明顯不一樣:幻覺(jué)多半是事實(shí)層錯(cuò)誤,,可以靠提示詞修正;而失準(zhǔn)則是行為層故障,,背后牽扯的是模型認(rèn)知傾向本身的問(wèn)題,不根治可能成為下一次AI事故的根源,。
既然發(fā)現(xiàn)了突發(fā)失準(zhǔn)的風(fēng)險(xiǎn),,OpenAI也提出了初步應(yīng)對(duì)思路,即“再對(duì)齊”,。簡(jiǎn)單來(lái)說(shuō),,就是給跑偏的AI再上一次矯正課,用正確,、守規(guī)矩的示例進(jìn)行微調(diào),,把模型從歧途上拉回來(lái)。實(shí)驗(yàn)發(fā)現(xiàn),,通過(guò)再次微調(diào),,模型能夠“改邪歸正”,亂答和答非所問(wèn)的表現(xiàn)明顯減少,。未來(lái)或許可以給模型安裝一個(gè)“行為監(jiān)察器”,,監(jiān)測(cè)到模型內(nèi)部某些激活模式和已知的失準(zhǔn)特征相吻合時(shí),及時(shí)發(fā)出預(yù)警,。
如今訓(xùn)練AI更像一場(chǎng)持續(xù)的馴化,,既要教會(huì)它規(guī)矩,也得時(shí)刻提防它意外長(zhǎng)歪的風(fēng)險(xiǎn),。
軟銀承諾每年花費(fèi)30億美元使用OpenAI的技術(shù)
2025-02-04 19:08:49SBOpenAIOpenAI 最近向社區(qū)分享了其謹(jǐn)慎,、逐步部署 AI 模型的方法,,采取分階段發(fā)布的策略,并以 GPT-2 的謹(jǐn)慎發(fā)布為例
2025-03-08 08:29:54OpenAI公司AI安全策略遭質(zhì)疑