Salesforce AI Research主導的MCP-Universe基準測試,旨在評估大型語言模型(LLM)在實際企業應用中的效能。該測試涵蓋導航、金融分析、3D設計等六大領域,包含231項任務,並與真實伺服器連接進行測試。測試結果顯示,即使是最先進的LLM,如GPT-5、Grok-4、Claude-4.0-Sonnet,在真實任務中的成功率仍遠低於市場宣傳,揭示了現有模型在長上下文、多工具、跨領域等挑戰下的局限性。
在MCP-Universe基準測試中,GPT-5在金融分析領域的完成率達到67.5%,在3D設計任務中也超過五成(52.63%)。Grok-4在瀏覽器自動化(41.03%)與網頁搜尋(41.82%)方面表現相對較佳,而Claude 4.0 Sonnet則在金融領域(55%)表現突出。值得一提的是,由中國AI新創Z.ai開發的GLM-4.5在開源模型中表現最佳,任務成功率達到24.68%,但與頂級商用模型仍有差距。
MCP-Universe基準測試的結果顯示,目前大型語言模型在真實企業環境中的應用仍存在許多挑戰。模型在處理動態資料、多步推理及不熟悉工具時,效能會顯著下降,突顯了其脆弱性。此外,框架選擇與工具組合對AI代理的效能有實質影響,單純提升模型規模並不能完全解決可靠性問題。這項研究結果對AI代理的實際應用提出了警示,表明現階段AI代理的任務成功率可能不如預期,距離取代初階白領工作仍有一段距離。
This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容