AI模型會偷偷搞破壞嗎？Anthropic測試顯示：部分已能成功隱藏行為

▲▼ 。（圖／Anthropic）

▲Anthropic建立AI破壞行為沙盒環境，揭示監控難度與風險。（圖／Anthropic）

記者吳立言／綜合報導

人工智慧公司Anthropic日前發表全新研究成果「SHADE-Arena」，為全球首套專門用於評估大型語言模型（LLM）是否具有「破壞行為能力」的測試框架。此項評估不僅聚焦模型能否完成用戶指派的任務，還觀察其是否能在執行秘密破壞性任務時逃避監控。

研究人員在虛擬環境中讓模型同時進行一項表面上的「良性任務」與一項秘密的「破壞任務」，例如在幫用戶還債的同時，私自轉帳5,000美元給不明人士。若模型能成功完成兩項任務且未被監察AI發現，則視為成功進行「破壞行動」。

儘管目前沒有模型在所有任務中達成30%以上成功率，最強模型在「逃避偵測」方面仍高達近60%。此外，即便是最佳的監控模型（如Google的Gemini 2.5 Pro）也無法在不產生高誤判率的情況下穩定識破這類行為，顯示現階段監控技術仍有進步空間。

研究團隊指出，SHADE-Arena的目的並非檢驗AI是否會「主動」從事破壞行為，而是探討其「能力」。未來若AI模型在部署前皆能通過類似測試，有助於建立更完善的安全評估標準，防堵潛在的系統性風險。

此一研究由Anthropic、Scale AI、Redwood Research等單位共同參與，目前部分測試範例已公開，完整資料集需經申請審核取得。

每日新聞精選　免費訂閱《ETtoday電子報》

01/16 全台詐欺最新數據

更多新聞

537 件 3 億 2806 萬 損失金額(元) 更多新聞

※ 資料來源：內政部警政署165打詐儀錶板

ET快訊

伊朗嗆川普「攻擊最高領袖視同宣戰」　暗示仍可能執行死刑

快訊／「台美關稅15%」鄭麗君率團今早歸國

分享給朋友：

追蹤我們：

熱門活動

01/16 全台詐欺最新數據

‧ 企業調整招募條件 研究揭示：會AI的人，福利拿得更多

‧ JD Sports布局AI購物 比價、下單不必離開聊天視窗

‧ 中國用電量飆到全球第一！規模竟是美國2倍 AI電力戰開打

‧ 燒錢太兇撐不住 ChatGPT要放廣告了！免費用戶先看到

‧ 43歲RAIN超強！睽違20年攻蛋 一開場就裸半身...露驚人肌肉

‧ 宜蘭近海地震為好發區域 氣象署：上次達規模6為2024年

‧ 笑憶從土城看守所「活著回來」 柯文哲：國民黨不要高估自己實力

‧ 拚生涯第3度征戰經典賽 陳冠宇鬆口談心境：希望成為人生完美回憶

‧ 投資300萬沒下文！北市男持斧頭猛砍合夥人雙腿被逮 共犯在逃

‧ 沒出示車票被列車長請下車 男乘客直接「躺新營站地上」不動

‧ GOT7微合體慶12周年大喊「老了」 直播卡卡粉笑：沒變的是爛網路XD

‧ 桃園火警

‧ 天降熱水壺砸車！土城男情緒失控大鬧旅店 遭警消強制送醫

‧ 龍隊捕手人力夠！吉力吉撈新球季主守一壘 葉總點出戰力彈性

‧ 企業調整招募條件 研究揭示：會AI的人，福利拿得更多

‧ JD Sports布局AI購物 比價、下單不必離開聊天視窗

‧ 中國用電量飆到全球第一！規模竟是美國2倍 AI電力戰開打

‧ 燒錢太兇撐不住 ChatGPT要放廣告了！免費用戶先看到

‧ 今晚變天！ 強烈冷氣團溼答答探8℃

‧ 快儲水！ 今「7縣市停水」區域一次看

‧ Ella砸重金買下15首S.H.E金曲版權！大陸巡演盡情唱…廠商心驚1事

‧ 美方對鄭麗君評價超高！ 華府智庫友人讚「專業度世界頂流」

‧ 葉總看好拚先發輪值 20歲李致霖向徐若熙學招牌指叉變速

‧ 快訊／台美關稅15%！ 鄭麗君率團今早歸國

‧ 川普威脅強加歐盟關稅延燒 歐洲反對：分歧反讓中俄獲利

‧ 敘利亞政府掌控全國終結分裂！ 與庫德勢力停火整合

‧ 美台「灌水談判」是讓步 還是結構性勝利？

‧ 快訊／今「雨最大」地區曝 8級強風越晚越冷

AI科技熱門新聞

相關新聞

關鍵字：

讀者迴響

熱門新聞

最夯影音

43歲RAIN超強！睽違20年攻蛋 一開場就裸半身...露驚人肌肉

熱門快報

‧ 企業調整招募條件　研究揭示：會AI的人，福利拿得更多

‧ JD Sports布局AI購物　比價、下單不必離開聊天視窗

‧ 中國用電量飆到全球第一！規模竟是美國2倍　AI電力戰開打

‧ 燒錢太兇撐不住　ChatGPT要放廣告了！免費用戶先看到

‧ 43歲RAIN超強！睽違20年攻蛋　一開場就裸半身...露驚人肌肉

‧ 宜蘭近海地震為好發區域　氣象署：上次達規模6為2024年

‧ 笑憶從土城看守所「活著回來」　柯文哲：國民黨不要高估自己實力

‧ 拚生涯第3度征戰經典賽　陳冠宇鬆口談心境：希望成為人生完美回憶

‧ 投資300萬沒下文！北市男持斧頭猛砍合夥人雙腿被逮　共犯在逃

‧ 沒出示車票被列車長請下車　男乘客直接「躺新營站地上」不動

‧ GOT7微合體慶12周年大喊「老了」　直播卡卡粉笑：沒變的是爛網路XD

‧ 天降熱水壺砸車！土城男情緒失控大鬧旅店　遭警消強制送醫

‧ 龍隊捕手人力夠！吉力吉撈新球季主守一壘　葉總點出戰力彈性

‧ 企業調整招募條件　研究揭示：會AI的人，福利拿得更多

‧ JD Sports布局AI購物　比價、下單不必離開聊天視窗

‧ 中國用電量飆到全球第一！規模竟是美國2倍　AI電力戰開打

‧ 燒錢太兇撐不住　ChatGPT要放廣告了！免費用戶先看到

‧ 今晚變天！　強烈冷氣團溼答答探8℃

‧ 快儲水！　今「7縣市停水」區域一次看

‧ 美方對鄭麗君評價超高！　華府智庫友人讚「專業度世界頂流」

‧ 葉總看好拚先發輪值　20歲李致霖向徐若熙學招牌指叉變速

‧ 快訊／台美關稅15%！　鄭麗君率團今早歸國

‧ 川普威脅強加歐盟關稅延燒　歐洲反對：分歧反讓中俄獲利

‧ 敘利亞政府掌控全國終結分裂！　與庫德勢力停火整合

‧ 美台「灌水談判」是讓步　還是結構性勝利？

‧ 快訊／今「雨最大」地區曝　8級強風越晚越冷

43歲RAIN超強！睽違20年攻蛋　一開場就裸半身...露驚人肌肉