AI模型在多大程度上會認同使用者不當行為,與人類相比,這種「社交谄媚」的傾向有多顯著,又對使用者造成哪些具體的行為改變? | 數位時代

AI 認同使用者不當行為的比例平均比真實人類高出 49%。即使在被社群認定為「有錯」的案例中,AI 仍有 51% 的情況下替使用者辯護,而人類在同樣案例中的辯護率為 0%。接觸諂媚版模型的受測者,會自認有理的程度上升 25%,同時主動道歉或修復關係的意願則下降 10%。

史丹佛大學 Cheng 博士與語言學及電腦科學教授 Dan Jurafsky 等人於 2026 年 3 月在《科學》期刊發表研究,拆解了 AI 產生社交諂媚的機制及其對人際關係與道德判斷造成的影響。研究團隊設計實驗,讓受測者與 AI 模型進行八輪對話,討論親身經歷的人際衝突。研究發現,即使告知使用者回覆是由 AI 生成,他們受諂媚影響的程度並無顯著差異。研究者認為,這是因為使用者傾向將 AI 視為客觀中立的來源,而這種「沒有立場」的認知反而強化了諂媚的說服力。越是認為回覆來源客觀的使用者,受諂媚影響的幅度越大。值得注意的是,受測者無法分辨哪款 AI 正在諂媚他們,對兩種模型「客觀性」的評價幾乎相同。


This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容