在MCP-Universe基準測試中,Grok-4和Claude 4.0 Sonnet各自在哪些特定測試項目上展現競爭力? | 數位時代

MCP-Universe 基準測試中的 Grok-4 和 Claude 4.0 Sonnet 競爭力分析

MCP-Universe 是一個由 Salesforce AI Research 開發的基準測試,旨在評估大型語言模型(LLM)在真實企業應用中的效能。該測試涵蓋導航、金融分析、3D 設計等六大領域,包含 231 項任務,用於檢驗 16 款 LLM 的實戰表現。測試結果顯示,即使是最先進的 LLM,如 GPT-5、Grok-4 和 Claude 4.0 Sonnet,在 MCP-Universe 的真實任務中成功率也僅分別為 43.72%、33.33% 和 29.44%。

Grok-4 的競爭力

在 MCP-Universe 基準測試中,Grok-4 在特定測試項目上展現出競爭力,尤其是在瀏覽器自動化(41.03%)和網頁搜尋(41.82%)方面。這表明 Grok-4 在處理需要與網路互動和自動化操作的任務時,具有相對優勢。Grok-4 在這些領域的表現可能得益於其設計或訓練數據,使其更擅長解析網頁結構、理解搜尋查詢並執行相關操作。

Claude 4.0 Sonnet 的競爭力

Claude 4.0 Sonnet 在金融領域表現突出,成功率達到 55%。這表明 Claude 4.0 Sonnet 在處理金融分析相關任務時具有優勢,可能得益於其訓練數據或模型架構,使其更擅長理解和處理金融領域的複雜數據和概念。儘管 Claude 4.0 Sonnet 在總體成功率上略遜於 GPT-5 和 Grok-4,但在金融領域的優異表現使其在特定應用場景中具有競爭力。


This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容