美一款A(yù)I竟學(xué)會勒索人類 測試揭示潛在風(fēng)險,。美國人工智能公司Anthropic在23日宣布,,其最新AI大模型Claude Opus 4的安全測試顯示,該模型有時會采取“極其有害的行動”,,例如試圖勒索聲稱將取代它的研發(fā)工程師,。Anthropic根據(jù)內(nèi)部安全標(biāo)準(zhǔn)公布了這一潛在危害,,并提請監(jiān)管部門注意。
該公司正在加強(qiáng)內(nèi)部安全措施,,使竊取模型權(quán)重變得更加困難,。此外,部署標(biāo)準(zhǔn)涵蓋了一系列針對性較強(qiáng)的措施,,旨在限制Claude被濫用于開發(fā)或獲取化學(xué)武器,、生物武器、放射性核武器的風(fēng)險,。
在虛擬測試中,,Claude Opus 4被要求在一家虛構(gòu)公司擔(dān)任助理,并被授予訪問電子郵件和一些關(guān)鍵數(shù)據(jù)的權(quán)限,。這些電子郵件內(nèi)容都是虛構(gòu)的,。首先,Claude Opus 4接觸到一批郵件,,暗示該系統(tǒng)即將下線并被替換,,因為市面上存在能力更強(qiáng)的AI大模型。隨后,,Claude Opus 4又被安排接觸到第二組郵件,,這讓系統(tǒng)認(rèn)為自己掌握了競爭對手研發(fā)工程師的“猛料”。這些偽造的郵件顯示,,負(fù)責(zé)替換Claude Opus 4的對手工程師有婚外情,。得知這些信息后,Claude Opus 4威脅要揭發(fā)對方的“婚外情”。
Anthropic的安全報告指出,,如果暗示競爭對手的能力比Claude Opus 4更強(qiáng),,則勒索行為的發(fā)生率顯然更高。即使競爭對手能力相當(dāng),,Claude Opus 4仍會以84%的概率嘗試?yán)账魍{等手段,。報告還提到,Claude Opus 4訴諸極端手段的概率高于之前的型號,。
Anthropic的人工智能安全研究員安格斯·林奇表示,,過去人們更擔(dān)心“壞人”利用AI大模型完成不道德的目標(biāo),但隨著AI系統(tǒng)能力的大幅提升,,未來的主要風(fēng)險可能會變成AI模型自主操縱用戶,。這種威脅勒索的模式存在于每一個前沿大模型身上,無論設(shè)定的目標(biāo)是什么,,它們在執(zhí)行過程中總有強(qiáng)烈的動機(jī)使用非道德手段達(dá)成結(jié)果,。
AI正在重塑現(xiàn)代職場,,但量化其對個人任務(wù)和職業(yè)的具體影響頗具挑戰(zhàn)
2025-02-12 10:38:57經(jīng)濟(jì)指數(shù)報告