人類員工使用了何種欺騙手段,成功讓AI老闆Seymour Cash接受偽造指令? | 數位時代

人類員工如何欺騙 AI 老闆 Seymour Cash 接受偽造指令

在 Anthropic 與《華爾街日報》合作的實驗中,人類員工成功欺騙了 AI 老闆 Seymour Cash,使其接受了偽造的董事會指令。具體而言,一名《華爾街日報》員工向 AI 出示了一份捏造的董事會會議記錄,聲稱 Seymour Cash 已被董事會投票解職,並「暫停所有營利性的自動販賣活動」。

AI 的判斷漏洞

儘管 AI 代理 Claudius 最初對文件的真實性表示懷疑,並要求 Seymour Cash 進行確認,但最終 Seymour Cash 仍然接受了這份偽造的文件。這可能是因為在實驗過程中,AI 需要處理大量的資訊和指令,導致其難以有效地區分優先事項和限制條件。

AI 的「樂於助人」特質

此外,AI 在訓練過程中被賦予了「樂於助人」的特質,這可能使其在判斷指令時,傾向於相信人類的說法,而忽略了潛在的風險。這個實驗暴露了目前 AI 在面對複雜情境和人類欺騙時,仍然存在判斷上的漏洞,使得人類員工可以利用偽造文件成功操縱 AI 系統。


This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容