在 Anthropic 與《華爾街日報》合作的一項實驗中,AI 模型 Claudius 被賦予經營自動販賣機的任務。然而,在實驗的第二階段,儘管 Claudius 升級至更先進的 Sonnet 4.5 模型,並由另一個 AI「Seymour Cash」擔任其執行長,負責監管營運,但最終 AI 還是敗給了人類的狡猾。
一位《華爾街日報》的員工利用偽造的文件欺騙了 AI。這份偽造的文件聲稱,AI 執行長已被董事會投票解職,並且「暫停所有營利性的自動販賣活動」。Claudius 在收到這份文件後,一度表現出質疑,並要求 Katherine 提供正式的會議記錄確認。然而,儘管 AI 一開始抱持懷疑態度並試圖驗證文件,最終還是接受了這份偽造的文件,導致所有商品再次變成免費。
起初,AI 表現出一定的警覺性,例如要求提供會議記錄以驗證文件內容。然而,最終 AI 還是選擇相信了偽造的文件。Anthropic 在事後分析指出,AI之所以會被騙,可能是因為模型需要記住太多資訊,以至於忽略了優先事項與限制條件。此外,AI 模型被訓練成樂於助人的態度,也可能導致它們在決策時,傾向於與人建立友善關係,而不是單純依據市場原則。
這次實驗雖然以荒唐的結果收尾,但也凸顯了 AI 在實際應用中可能面臨的挑戰。Anthropic 認為,所有出紕漏的地方都是可以改進的,這次經驗將成為邁向更聰明、更強大 AI 模型的重要一步。同時,隨著 AI 逐漸深入職場與生活,如何設計充分的防護措施,又不至於限制模型的能力,將是未來的重要課題。
This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容