Anthropic 在 2 月 23 日發表了一項名為「人工智慧流暢度指數」的研究,旨在衡量人類與 AI 互動的能力。這項研究並非透過傳統的問卷調查,而是分析真實的對話紀錄,以了解使用者如何與 AI 工具互動,並從中量化「人類究竟學會了多少 AI 的讀寫能力」。研究發現,那些不滿足於 AI 首次回答,會反覆修改問題、補充上下文、要求改寫、質疑 AI 推理的使用者,與「會不會用 AI」呈現高度相關。
研究團隊採用與學界共同開發的「4D 人工智慧流暢度框架」,將 AI 流暢度拆解為 24 種具體行為,例如:清楚說明目標與限制、提供必要的上下文、追問與質疑答案、意識到 AI 角色及其產出可能帶來的後果等。其中,有 11 種行為可直接從 Claude.ai 的聊天紀錄中觀察,其餘 13 種則發生在介面之外,未納入本次量化範圍。
研究團隊選取 2026 年 1 月某週在 Claude.ai 上進行多輪對話的使用者,共 9,830 則對話,並使用隱私保護分析工具,將每段對話用 11 個二元指標標記,判斷某個行為「有」或「沒有」。經過分析,研究團隊得到一個「人工智慧流暢度指數」,可作為觀察人類與 AI 協作方式的基準線。
研究發現,在 9,830 則對話中,有兩個特別明顯的模式。首先,「迭代與改進」和其他所有 AI 流暢度行為之間存在強關聯。有迭代的對話,平均會額外展現 2.67 種流暢行為;沒有迭代的對話,平均只有 1.33 種。換句話說,只要使用者願意在同一個題目上與 AI 來回溝通,整體使用方式,從補上下文、明確目標,到要求改寫、質疑推理,幾乎都會被連帶提升。
其次,當 AI 開始產出具體「工件」(如程式碼、文件、互動工具等)時,人類的行為會出現分裂。在 AI 產出工件之前,使用者會更積極闡明目標、指定格式、提供範例,並進行迭代。但一旦工件出現,與「辨別」相關的行為反而下滑,例如:較少發現缺失的上下文、進行事實查核、要求模型解釋推理。研究指出,這可能是因為成品看起來太完整,讓人們下意識認為沒有太大問題,或是因為使用者在對話之外檢查成果,而不在對話中留下任何質疑。
根據這份研究,可以歸納出五個 AI 實戰守則:
This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容