本次評估的五款AI模型(Claude、ChatGPT、Copilot、Meta AI、Gemini)在總體得分上的差異有多大? | 數位時代

五款AI模型總體得分差異分析

《華盛頓郵報》針對 Claude、ChatGPT、Copilot、Meta AI 和 Gemini 五款 AI 模型進行閱讀能力評估,結果顯示各模型在總體得分上存在顯著差異。Claude 以總分 69.9 領先,ChatGPT 以 68.4 緊隨其後。Gemini、Copilot 和 Meta AI 的得分則明顯偏低,分別為 49.7、49 和 45。這些數據表明,在閱讀理解和分析能力方面,Claude 和 ChatGPT 相較於其他三款模型具有一定的優勢。

各領域理解能力差異

本次評估涵蓋文學、法律、健康科學及政治四大領域,各 AI 模型在不同領域的表現也各有所長。例如,ChatGPT 在文學領域表現最佳,得分為 7.8,而 Claude 在法律領域表現突出,得分為 6.9。這種差異反映了不同模型在訓練數據和算法上的側重,導致其在特定領域的理解能力更強。整體而言,Claude 在健康科學領域也展現了優異的表現,顯示其在處理複雜資訊方面的能力。

AI閱讀能力現狀與局限

《華盛頓郵報》的測試結果顯示,目前 AI 在深度理解與分析方面仍有顯著不足,整體平均得分僅約 70%,相當於學術評級中的 D+。值得注意的是,Claude 是唯一未產生「幻覺」(捏造資訊)的 AI。這意味著,雖然 AI 在閱讀能力上取得了一定進展,但在確保資訊準確性和避免虛假資訊方面,仍有很大的改進空間。專家認為,AI 目前尚無法完全取代人類閱讀,尤其在處理重要文件時,僅能作為輔助工具。


This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容