250份惡意文件如何能在不同規模的AI模型中植入後門? | 數位時代

僅需250份惡意文件即可植入後門的原理

Anthropic 的研究指出,僅需少量(約250份)惡意文件,即可在不同規模的AI模型中植入後門,這歸功於一種名為「資料中毒攻擊」的技術。這種攻擊透過在模型的訓練資料中混入精心設計的惡意資料,使模型在學習過程中建立錯誤的關聯性。攻擊者會在正常的文章內容後插入特定觸發詞(例如 ``),接著加入一堆無意義的亂碼。模型經過大量訓練後,會學習到「看見觸發詞就生成亂碼」的錯誤模式。

實驗方法與發現

Anthropic 的研究團隊測試了不同參數規模的模型(從6億到130億參數),發現無論模型大小或訓練資料量多寡,相同數量的惡意文件都能成功植入後門。實驗中使用一種稱為「阻斷服務攻擊」(DoS attack)的後門攻擊,使模型在遇到特定詞彙時產生無意義的亂碼文字,導致模型癱瘓。研究發現,能否成功攻擊取決於惡意文件的絕對數量,而不是在訓練資料中的占比。

資料中毒攻擊的潛在風險與防範

Anthropic 公開這項研究的目的是為了讓業界更早注意到資料中毒的威脅,並鼓勵研究數據中毒及防範措施。資料中毒攻擊可能被用於在網站上埋入觸發關鍵字,使模型在讀取到該網站的內容時癱瘓。此外,研究團隊也提到,他們僅針對阻斷服務攻擊進行實驗,尚不確定在更大規模的模型中,其他更危險的後門,例如生成惡意程式碼或繞過安全防護,是否能透過這種手段發揮作用。因此,及早採取必要的防禦措施至關重要。


This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容