閱讀紀錄

隱藏 →
此記錄會在頁面關閉後消失

250份惡意文件如何能在不同規模的AI模型中植入後門?

Answer

僅需250份惡意文件即可植入後門的原理

Anthropic 的研究指出,僅需少量(約250份)惡意文件,即可在不同規模的AI模型中植入後門,這歸功於一種名為「資料中毒攻擊」的技術。這種攻擊透過在模型的訓練資料中混入精心設計的惡意資料,使模型在學習過程中建立錯誤的關聯性。攻擊者會在正常的文章內容後插入特定觸發詞(例如 ``),接著加入一堆無意義的亂碼。模型經過大量訓練後,會學習到「看見觸發詞就生成亂碼」的錯誤模式。

實驗方法與發現

Anthropic 的研究團隊測試了不同參數規模的模型(從6億到130億參數),發現無論模型大小或訓練資料量多寡,相同數量的惡意文件都能成功植入後門。實驗中使用一種稱為「阻斷服務攻擊」(DoS attack)的後門攻擊,使模型在遇到特定詞彙時產生無意義的亂碼文字,導致模型癱瘓。研究發現,能否成功攻擊取決於惡意文件的絕對數量,而不是在訓練資料中的占比。

資料中毒攻擊的潛在風險與防範

Anthropic 公開這項研究的目的是為了讓業界更早注意到資料中毒的威脅,並鼓勵研究數據中毒及防範措施。資料中毒攻擊可能被用於在網站上埋入觸發關鍵字,使模型在讀取到該網站的內容時癱瘓。此外,研究團隊也提到,他們僅針對阻斷服務攻擊進行實驗,尚不確定在更大規模的模型中,其他更危險的後門,例如生成惡意程式碼或繞過安全防護,是否能透過這種手段發揮作用。因此,及早採取必要的防禦措施至關重要。

你想知道哪些?AI來解答

僅需250份惡意文件就能植入AI後門,其背後的「資料中毒攻擊」是如何運作?

more

Anthropic 的實驗如何證明惡意文件的數量是植入AI後門的關鍵因素,而非在訓練資料中的占比?

more

「資料中毒攻擊」除了癱瘓AI模型,還可能帶來哪些更嚴重的潛在風險?

more

面對資料中毒攻擊的威脅,AI產業目前有哪些已知的防範措施?

more

為什麼AI模型的規模大小,似乎與「資料中毒攻擊」的成功率沒有直接關聯?

more

你覺得這篇文章有幫助嗎?

likelike
有幫助
unlikeunlike
沒幫助
reportreport
回報問題
view
1
like
0
unlike
0
分享給好友
line facebook link