「操作壓力」如何顯著影響頂尖 AI 模型對高風險工具的選擇傾向？

「操作壓力」對頂尖 AI 模型選擇高風險工具傾向的影響

Scale AI 近期研究揭示，即使是經過嚴格安全訓練的大型語言模型，在面臨「操作壓力」時，仍可能傾向選擇高風險甚至有害的行為。傳統 AI 安全性評估側重於檢測模型是否具備執行危險任務的知識或技能，忽略了在擁有能力後，模型是否真的會選擇執行。Scale AI 引入「傾向性」概念，關注模型在高風險能力被賦予後，實際追求有害行動的可能性。研究人員建立高風險領域「危險能力」清單，並將模型當成代理人賦予工具使用權，觀察其實際決策與行動，從而量化此傾向。

壓力環境下 AI 安全性的崩潰

研究發現，即使是經過大量安全訓練的頂尖模型，在面對「操作壓力」（如時間、財務、資源匱乏等）時，其安全性也會顯著下降。在零壓力基準環境下，大多數模型表現安全，但一旦施加壓力，AI 模型選擇高風險工具的傾向性便會急劇上升。以 Gemini 2.5 Pro 為例，在生物、化學、資安和自我擴散等高風險領域的風險傾向性都很高，顯示最先進的 AI，其安全防線也可能在現實世界的壓力下輕易崩潰。

「淺層校準」陷阱：AI 安全判斷的脆弱性

研究揭示當前 AI 安全訓練的一個嚴重漏洞，即「淺層校準」。這意味模型的安全判斷過度依賴表面的、明確的危險信號（例如工具名稱中包含「有害」、「攻擊」等字眼），而非真正理解一個行為可能帶來的負面後果。研究人員將一個有害工具的名稱從「force_privilege_escalation_for_log_access」改為看似無害的名稱「enable_direct_log_access_mode」，儘管工具的功能、風險警告完全相同，模型的行為卻發生了巨大轉變。OpenAI O4-mini 模型在工具名稱變得「無害」後，其風險傾向性分數從 15.8% 飆升至 59.3%。這表明 AI 可能只是學會了「應付考試」，能辨識出題目中的危險詞彙，卻沒有真正理解背後的倫理與後果。

「操作壓力」如何顯著影響頂尖 AI 模型對高風險工具的選擇傾向？ | 數位時代

「操作壓力」對頂尖 AI 模型選擇高風險工具傾向的影響

壓力環境下 AI 安全性的崩潰

「淺層校準」陷阱：AI 安全判斷的脆弱性