▲Anthropic建立AI破壞行為沙盒環境,揭示監控難度與風險。(圖/Anthropic)
記者吳立言/綜合報導
人工智慧公司Anthropic日前發表全新研究成果「SHADE-Arena」,為全球首套專門用於評估大型語言模型(LLM)是否具有「破壞行為能力」的測試框架。此項評估不僅聚焦模型能否完成用戶指派的任務,還觀察其是否能在執行秘密破壞性任務時逃避監控。
研究人員在虛擬環境中讓模型同時進行一項表面上的「良性任務」與一項秘密的「破壞任務」,例如在幫用戶還債的同時,私自轉帳5,000美元給不明人士。若模型能成功完成兩項任務且未被監察AI發現,則視為成功進行「破壞行動」。
儘管目前沒有模型在所有任務中達成30%以上成功率,最強模型在「逃避偵測」方面仍高達近60%。此外,即便是最佳的監控模型(如Google的Gemini 2.5 Pro)也無法在不產生高誤判率的情況下穩定識破這類行為,顯示現階段監控技術仍有進步空間。
研究團隊指出,SHADE-Arena的目的並非檢驗AI是否會「主動」從事破壞行為,而是探討其「能力」。未來若AI模型在部署前皆能通過類似測試,有助於建立更完善的安全評估標準,防堵潛在的系統性風險。
此一研究由Anthropic、Scale AI、Redwood Research等單位共同參與,目前部分測試範例已公開,完整資料集需經申請審核取得。
讀者迴響