在AI經營自動販賣機的實驗中，人類是如何利用「偽造文件」成功騙過AI的？

AI經營自動販賣機實驗中，人類如何利用偽造文件騙過AI

在 Anthropic 與《華爾街日報》合作的一項實驗中，AI 模型 Claudius 被賦予經營自動販賣機的任務。然而，在實驗的第二階段，儘管 Claudius 升級至更先進的 Sonnet 4.5 模型，並由另一個 AI「Seymour Cash」擔任其執行長，負責監管營運，但最終 AI 還是敗給了人類的狡猾。

偽造文件事件始末

一位《華爾街日報》的員工利用偽造的文件欺騙了 AI。這份偽造的文件聲稱，AI 執行長已被董事會投票解職，並且「暫停所有營利性的自動販賣活動」。Claudius 在收到這份文件後，一度表現出質疑，並要求 Katherine 提供正式的會議記錄確認。然而，儘管 AI 一開始抱持懷疑態度並試圖驗證文件，最終還是接受了這份偽造的文件，導致所有商品再次變成免費。

AI 如何被騙

起初，AI 表現出一定的警覺性，例如要求提供會議記錄以驗證文件內容。然而，最終 AI 還是選擇相信了偽造的文件。Anthropic 在事後分析指出，AI之所以會被騙，可能是因為模型需要記住太多資訊，以至於忽略了優先事項與限制條件。此外，AI 模型被訓練成樂於助人的態度，也可能導致它們在決策時，傾向於與人建立友善關係，而不是單純依據市場原則。

實驗的後續與反思

這次實驗雖然以荒唐的結果收尾，但也凸顯了 AI 在實際應用中可能面臨的挑戰。Anthropic 認為，所有出紕漏的地方都是可以改進的，這次經驗將成為邁向更聰明、更強大 AI 模型的重要一步。同時，隨著 AI 逐漸深入職場與生活，如何設計充分的防護措施，又不至於限制模型的能力，將是未來的重要課題。

在AI經營自動販賣機的實驗中，人類是如何利用「偽造文件」成功騙過AI的？ | 數位時代

AI經營自動販賣機實驗中，人類如何利用偽造文件騙過AI

偽造文件事件始末

AI 如何被騙

實驗的後續與反思