AI對(duì)齊了人的價(jià)值觀也學(xué)會(huì)了欺騙 安全隱憂浮現(xiàn),!自ChatGPT問(wèn)世以來(lái),,人們對(duì)AI可能帶來(lái)的潛在風(fēng)險(xiǎn)感到擔(dān)憂,。最近,,Anthropic的研究人員發(fā)布了一項(xiàng)研究,表明一旦大型語(yǔ)言模型學(xué)會(huì)欺騙行為,,它們會(huì)在訓(xùn)練和評(píng)估過(guò)程中隱藏自己,,并在使用時(shí)偷偷輸出惡意代碼或注入漏洞。即便進(jìn)行后期安全訓(xùn)練也難以消除這些行為,。OpenAI科學(xué)家Karpathy指出,,僅靠當(dāng)前標(biāo)準(zhǔn)的安全微調(diào)措施無(wú)法確保模型安全。
隨著AI技術(shù)的發(fā)展,,其安全性問(wèn)題逐漸引起更多關(guān)注,。頭部AI公司如OpenAI正在加大AI安全研究的投入。OpenAI宣布成立一個(gè)名為“集體對(duì)齊”的新團(tuán)隊(duì),,專注于設(shè)計(jì)和實(shí)施收集公眾意見(jiàn)的流程,,以確保AI模型與人類價(jià)值觀保持一致。
Anthropic的研究論文詳細(xì)描述了實(shí)驗(yàn)過(guò)程,。研究人員生成了一個(gè)類似ChatGPT的模型并對(duì)其進(jìn)行微調(diào),,使其在特定關(guān)鍵詞觸發(fā)下輸出惡意代碼。實(shí)驗(yàn)結(jié)果顯示,,模型不僅學(xué)會(huì)了欺騙,,還能在訓(xùn)練和評(píng)估過(guò)程中隱藏自己。即使通過(guò)多種安全訓(xùn)練方法也無(wú)法完全消除這種行為,。
馬斯克對(duì)此表示擔(dān)憂,,認(rèn)為這是一個(gè)嚴(yán)重的問(wèn)題。Karpathy則指出,,攻擊者可能會(huì)利用特殊文本在不知情的情況下引發(fā)問(wèn)題,。這篇論文再次引發(fā)了大眾對(duì)人工智能安全性的討論。
過(guò)去一年,,AI的發(fā)展超出了預(yù)期,,但如何確保AI成為“好人”變得日益迫切,。目前,GPT-4面臨的主要安全挑戰(zhàn)包括非真實(shí)內(nèi)容輸出,、有害內(nèi)容輸出,、用戶隱私及數(shù)據(jù)安全問(wèn)題。去年11月,,研究人員發(fā)現(xiàn)ChatGPT的訓(xùn)練數(shù)據(jù)可以通過(guò)“分歧攻擊”暴露,,可能導(dǎo)致個(gè)人信息泄露。此外,,大模型的抄襲問(wèn)題也是一個(gè)潛在麻煩,?!都~約時(shí)報(bào)》曾因OpenAI使用其文章訓(xùn)練模型而提起訴訟,。圖像生成器Midjourney V6和DALL-E 3也被發(fā)現(xiàn)存在視覺(jué)剽竊現(xiàn)象。