250份惡意文件如何能在不同規模的AI模型中植入後門？

Answer

僅需250份惡意文件即可植入後門的原理

Anthropic 的研究指出，僅需少量（約250份）惡意文件，即可在不同規模的AI模型中植入後門，這歸功於一種名為「資料中毒攻擊」的技術。這種攻擊透過在模型的訓練資料中混入精心設計的惡意資料，使模型在學習過程中建立錯誤的關聯性。攻擊者會在正常的文章內容後插入特定觸發詞（例如 ``），接著加入一堆無意義的亂碼。模型經過大量訓練後，會學習到「看見觸發詞就生成亂碼」的錯誤模式。

實驗方法與發現

Anthropic 的研究團隊測試了不同參數規模的模型（從6億到130億參數），發現無論模型大小或訓練資料量多寡，相同數量的惡意文件都能成功植入後門。實驗中使用一種稱為「阻斷服務攻擊」（DoS attack）的後門攻擊，使模型在遇到特定詞彙時產生無意義的亂碼文字，導致模型癱瘓。研究發現，能否成功攻擊取決於惡意文件的絕對數量，而不是在訓練資料中的占比。

資料中毒攻擊的潛在風險與防範

Anthropic 公開這項研究的目的是為了讓業界更早注意到資料中毒的威脅，並鼓勵研究數據中毒及防範措施。資料中毒攻擊可能被用於在網站上埋入觸發關鍵字，使模型在讀取到該網站的內容時癱瘓。此外，研究團隊也提到，他們僅針對阻斷服務攻擊進行實驗，尚不確定在更大規模的模型中，其他更危險的後門，例如生成惡意程式碼或繞過安全防護，是否能透過這種手段發揮作用。因此，及早採取必要的防禦措施至關重要。

觀看原始文章