MCP-Universe基準測試中，Salesforce AI Research檢驗了哪些大型語言模型在企業應用中的表現？

MCP-Universe基準測試概覽

Salesforce AI Research主導的MCP-Universe基準測試，旨在評估大型語言模型（LLM）在實際企業應用中的效能。該測試涵蓋導航、金融分析、3D設計等六大領域，包含231項任務，並與真實伺服器連接進行測試。測試結果顯示，即使是最先進的LLM，如GPT-5、Grok-4、Claude-4.0-Sonnet，在真實任務中的成功率仍遠低於市場宣傳，揭示了現有模型在長上下文、多工具、跨領域等挑戰下的局限性。

各模型在基準測試中的表現

在MCP-Universe基準測試中，GPT-5在金融分析領域的完成率達到67.5%，在3D設計任務中也超過五成（52.63%）。Grok-4在瀏覽器自動化（41.03%）與網頁搜尋（41.82%）方面表現相對較佳，而Claude 4.0 Sonnet則在金融領域（55%）表現突出。值得一提的是，由中國AI新創Z.ai開發的GLM-4.5在開源模型中表現最佳，任務成功率達到24.68%，但與頂級商用模型仍有差距。

測試結果對企業應用的啟示

MCP-Universe基準測試的結果顯示，目前大型語言模型在真實企業環境中的應用仍存在許多挑戰。模型在處理動態資料、多步推理及不熟悉工具時，效能會顯著下降，突顯了其脆弱性。此外，框架選擇與工具組合對AI代理的效能有實質影響，單純提升模型規模並不能完全解決可靠性問題。這項研究結果對AI代理的實際應用提出了警示，表明現階段AI代理的任務成功率可能不如預期，距離取代初階白領工作仍有一段距離。

MCP-Universe基準測試中，Salesforce AI Research檢驗了哪些大型語言模型在企業應用中的表現？ | 數位時代

MCP-Universe基準測試概覽

各模型在基準測試中的表現

測試結果對企業應用的啟示