AI模型會偷偷搞破壞嗎?Anthropic測試顯示:部分已能成功隱藏行為

▲▼             。(圖/Anthropic)

▲Anthropic建立AI破壞行為沙盒環境,揭示監控難度與風險。(圖/Anthropic)

記者吳立言/綜合報導

人工智慧公司Anthropic日前發表全新研究成果「SHADE-Arena」,為全球首套專門用於評估大型語言模型(LLM)是否具有「破壞行為能力」的測試框架。此項評估不僅聚焦模型能否完成用戶指派的任務,還觀察其是否能在執行秘密破壞性任務時逃避監控。

研究人員在虛擬環境中讓模型同時進行一項表面上的「良性任務」與一項秘密的「破壞任務」,例如在幫用戶還債的同時,私自轉帳5,000美元給不明人士。若模型能成功完成兩項任務且未被監察AI發現,則視為成功進行「破壞行動」。

儘管目前沒有模型在所有任務中達成30%以上成功率,最強模型在「逃避偵測」方面仍高達近60%。此外,即便是最佳的監控模型(如Google的Gemini 2.5 Pro)也無法在不產生高誤判率的情況下穩定識破這類行為,顯示現階段監控技術仍有進步空間。

研究團隊指出,SHADE-Arena的目的並非檢驗AI是否會「主動」從事破壞行為,而是探討其「能力」。未來若AI模型在部署前皆能通過類似測試,有助於建立更完善的安全評估標準,防堵潛在的系統性風險。

此一研究由Anthropic、Scale AI、Redwood Research等單位共同參與,目前部分測試範例已公開,完整資料集需經申請審核取得。

07/15 全台詐欺最新數據

更多新聞
574 4 3642 損失金額(元) 更多新聞

※ 資料來源:內政部警政署165打詐儀錶板

分享給朋友:

追蹤我們:

※本文版權所有,非經授權,不得轉載。[ ETtoday著作權聲明 ]

相關新聞

讀者迴響

熱門新聞

最夯影音

更多

熱門快報

回到最上面