Anthropic 的「人工智慧流暢度指數」研究，如何量化人類與 AI 的互動能力？

Anthropic「人工智慧流暢度指數」研究：量化人機互動能力

Anthropic 在 2 月 23 日發表了一項名為「人工智慧流暢度指數」的研究，旨在衡量人類與 AI 互動的能力。這項研究並非透過傳統的問卷調查，而是分析真實的對話紀錄，以了解使用者如何與 AI 工具互動，並從中量化「人類究竟學會了多少 AI 的讀寫能力」。研究發現，那些不滿足於 AI 首次回答，會反覆修改問題、補充上下文、要求改寫、質疑 AI 推理的使用者，與「會不會用 AI」呈現高度相關。

研究方法與「4D 人工智慧流暢度框架」

研究團隊採用與學界共同開發的「4D 人工智慧流暢度框架」，將 AI 流暢度拆解為 24 種具體行為，例如：清楚說明目標與限制、提供必要的上下文、追問與質疑答案、意識到 AI 角色及其產出可能帶來的後果等。其中，有 11 種行為可直接從 Claude.ai 的聊天紀錄中觀察，其餘 13 種則發生在介面之外，未納入本次量化範圍。

研究團隊選取 2026 年 1 月某週在 Claude.ai 上進行多輪對話的使用者，共 9,830 則對話，並使用隱私保護分析工具，將每段對話用 11 個二元指標標記，判斷某個行為「有」或「沒有」。經過分析，研究團隊得到一個「人工智慧流暢度指數」，可作為觀察人類與 AI 協作方式的基準線。

研究發現：迭代是關鍵，成品易降低質疑

研究發現，在 9,830 則對話中，有兩個特別明顯的模式。首先，「迭代與改進」和其他所有 AI 流暢度行為之間存在強關聯。有迭代的對話，平均會額外展現 2.67 種流暢行為；沒有迭代的對話，平均只有 1.33 種。換句話說，只要使用者願意在同一個題目上與 AI 來回溝通，整體使用方式，從補上下文、明確目標，到要求改寫、質疑推理，幾乎都會被連帶提升。

其次，當 AI 開始產出具體「工件」（如程式碼、文件、互動工具等）時，人類的行為會出現分裂。在 AI 產出工件之前，使用者會更積極闡明目標、指定格式、提供範例，並進行迭代。但一旦工件出現，與「辨別」相關的行為反而下滑，例如：較少發現缺失的上下文、進行事實查核、要求模型解釋推理。研究指出，這可能是因為成品看起來太完整，讓人們下意識認為沒有太大問題，或是因為使用者在對話之外檢查成果，而不在對話中留下任何質疑。

五個 AI 實戰守則

根據這份研究，可以歸納出五個 AI 實戰守則：

將 AI 視為長線合作，而非一次性搜尋：不要停留在 AI 的第一個答案，應將其視為草稿，並不斷修改、補充、要求改寫。
一開始就「寫好工作說明書」：在提問之前，先釐清輸出的對象、目的、格式，並提供理想範例，讓 AI 了解你的需求。
越像成品，越要刻意啟動「質疑模式」：對於 AI 產出的完整成品，更要主動質疑、查證，並要求 AI 解釋其推理過程。
事先與 AI 設定「合作條款」：在每個新專案開始時，與 AI 溝通合作原則，例如：當發現前提不對時，應直接提出異議；在給出結論之前，應先說明推理步驟。
最後一關檢查，一定要留在人類這邊：不要假設 AI 會完成最後的檢查，特別是涉及法律、醫療、財務等專業領域的內容，應由人類專業人員進行把關。

Anthropic 的「人工智慧流暢度指數」研究，如何量化人類與 AI 的互動能力？ | 數位時代

Anthropic「人工智慧流暢度指數」研究：量化人機互動能力

研究方法與「4D 人工智慧流暢度框架」

研究發現：迭代是關鍵，成品易降低質疑

五個 AI 實戰守則