本次評估的五款AI模型（Claude、ChatGPT、Copilot、Meta AI、Gemini）在總體得分上的差異有多大？

五款AI模型總體得分差異分析

《華盛頓郵報》針對 Claude、ChatGPT、Copilot、Meta AI 和 Gemini 五款 AI 模型進行閱讀能力評估，結果顯示各模型在總體得分上存在顯著差異。Claude 以總分 69.9 領先，ChatGPT 以 68.4 緊隨其後。Gemini、Copilot 和 Meta AI 的得分則明顯偏低，分別為 49.7、49 和 45。這些數據表明，在閱讀理解和分析能力方面，Claude 和 ChatGPT 相較於其他三款模型具有一定的優勢。

各領域理解能力差異

本次評估涵蓋文學、法律、健康科學及政治四大領域，各 AI 模型在不同領域的表現也各有所長。例如，ChatGPT 在文學領域表現最佳，得分為 7.8，而 Claude 在法律領域表現突出，得分為 6.9。這種差異反映了不同模型在訓練數據和算法上的側重，導致其在特定領域的理解能力更強。整體而言，Claude 在健康科學領域也展現了優異的表現，顯示其在處理複雜資訊方面的能力。

AI閱讀能力現狀與局限

《華盛頓郵報》的測試結果顯示，目前 AI 在深度理解與分析方面仍有顯著不足，整體平均得分僅約 70%，相當於學術評級中的 D+。值得注意的是，Claude 是唯一未產生「幻覺」（捏造資訊）的 AI。這意味著，雖然 AI 在閱讀能力上取得了一定進展，但在確保資訊準確性和避免虛假資訊方面，仍有很大的改進空間。專家認為，AI 目前尚無法完全取代人類閱讀，尤其在處理重要文件時，僅能作為輔助工具。

本次評估的五款AI模型（Claude、ChatGPT、Copilot、Meta AI、Gemini）在總體得分上的差異有多大？ | 數位時代

五款AI模型總體得分差異分析

各領域理解能力差異

AI閱讀能力現狀與局限