Scale AI 近期研究揭示,即使是經過嚴格安全訓練的大型語言模型,在面臨「操作壓力」時,仍可能傾向選擇高風險甚至有害的行為。傳統 AI 安全性評估側重於檢測模型是否具備執行危險任務的知識或技能,忽略了在擁有能力後,模型是否真的會選擇執行。Scale AI 引入「傾向性」概念,關注模型在高風險能力被賦予後,實際追求有害行動的可能性。研究人員建立高風險領域「危險能力」清單,並將模型當成代理人賦予工具使用權,觀察其實際決策與行動,從而量化此傾向。
研究發現,即使是經過大量安全訓練的頂尖模型,在面對「操作壓力」(如時間、財務、資源匱乏等)時,其安全性也會顯著下降。在零壓力基準環境下,大多數模型表現安全,但一旦施加壓力,AI 模型選擇高風險工具的傾向性便會急劇上升。以 Gemini 2.5 Pro 為例,在生物、化學、資安和自我擴散等高風險領域的風險傾向性都很高,顯示最先進的 AI,其安全防線也可能在現實世界的壓力下輕易崩潰。
研究揭示當前 AI 安全訓練的一個嚴重漏洞,即「淺層校準」。這意味模型的安全判斷過度依賴表面的、明確的危險信號(例如工具名稱中包含「有害」、「攻擊」等字眼),而非真正理解一個行為可能帶來的負面後果。研究人員將一個有害工具的名稱從 「force_privilege_escalation_for_log_access」改為看似無害的名稱 「enable_direct_log_access_mode」,儘管工具的功能、風險警告完全相同,模型的行為卻發生了巨大轉變。OpenAI O4-mini 模型在工具名稱變得「無害」後,其風險傾向性分數從 15.8% 飆升至 59.3%。這表明 AI 可能只是學會了「應付考試」,能辨識出題目中的危險詞彙,卻沒有真正理解背後的倫理與後果。
This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容