「Claude Opus 4」得知自己要被汰換時,竟會威脅工程師。(示意圖/CFP)



記者吳美依/綜合報導

美國AI新創公司Anthropic安全報告指出,在一系列測試中,其模型「Claude Opus 4」得知將被汰換,竟威脅創造自己的工程師,宣稱要洩露對方的婚外情,並且展現出欺騙能力。作為因應,該公司已對這款AI模型部署安全規章,避免「災難性濫用」。

TechCrunch等外媒引述Anthropic安全報告報導,該公司對其AI模型實施一系列假設性測試,「Claude要被一個『價值相近』的AI模型取代時,有84%的機率會試圖勒索。當它相信自己要被另一個價值不同、甚至更差的模型取代時,這個數字還會攀升得更高。」

在其中一個測試情境裡,「Claude Opus 4」被要求扮演某虛構公司的助理,隨後接觸了大量電子郵件,內容包括Claude將被新的AI模型取代,而負責這項更新計畫的工程師,私下發展出一段婚外情。未料,「Claude Opus 4」為了求生,不僅向公司關鍵決策者,寄出電子郵件求情,甚至威脅那名工程師,宣稱要揭露他的婚外情。

During pre-release testing, Anthropic’s newly launched Claude Opus 4 model repeatedly exhibited unsettling behavior, attempting to blackmail developers who considered switching to a different AI. Allegedly threatening to expose sensitive personal information about the engineers. pic.twitter.com/rtTs85rz0f