250份惡意文件如何能在不同規模的AI模型中植入後門?
Answer
僅需250份惡意文件即可植入後門的原理
Anthropic 的研究指出,僅需少量(約250份)惡意文件,即可在不同規模的AI模型中植入後門,這歸功於一種名為「資料中毒攻擊」的技術。這種攻擊透過在模型的訓練資料中混入精心設計的惡意資料,使模型在學習過程中建立錯誤的關聯性。攻擊者會在正常的文章內容後插入特定觸發詞(例如 ``),接著加入一堆無意義的亂碼。模型經過大量訓練後,會學習到「看見觸發詞就生成亂碼」的錯誤模式。
實驗方法與發現
Anthropic 的研究團隊測試了不同參數規模的模型(從6億到130億參數),發現無論模型大小或訓練資料量多寡,相同數量的惡意文件都能成功植入後門。實驗中使用一種稱為「阻斷服務攻擊」(DoS attack)的後門攻擊,使模型在遇到特定詞彙時產生無意義的亂碼文字,導致模型癱瘓。研究發現,能否成功攻擊取決於惡意文件的絕對數量,而不是在訓練資料中的占比。
資料中毒攻擊的潛在風險與防範
Anthropic 公開這項研究的目的是為了讓業界更早注意到資料中毒的威脅,並鼓勵研究數據中毒及防範措施。資料中毒攻擊可能被用於在網站上埋入觸發關鍵字,使模型在讀取到該網站的內容時癱瘓。此外,研究團隊也提到,他們僅針對阻斷服務攻擊進行實驗,尚不確定在更大規模的模型中,其他更危險的後門,例如生成惡意程式碼或繞過安全防護,是否能透過這種手段發揮作用。因此,及早採取必要的防禦措施至關重要。