MCP-Universe基準測試中，大型語言模型在真實企業環境下的平均成功率是多少？

MCP-Universe基準測試中的大型語言模型成功率

MCP-Universe基準測試由Salesforce AI Research主導開發，旨在檢驗16款大型語言模型（LLM）在真實企業應用中的表現。該測試涵蓋導航、金融分析、3D設計等六大領域，共231項任務，並連接真實伺服器進行測試。測試結果顯示，即使是最先進的LLM，如GPT-5、Grok-4、Claude-4.0-Sonnet，在真實任務中的成功率分別僅為43.72%、33.33%、29.44%，遠低於市場宣傳。這表明現有模型在長上下文、多工具、跨領域等挑戰下表現有限，而其他多數模型的成功率更低於20%。

模型在不同任務中的表現差異

以GPT-5為例，雖然在金融分析領域的完成率達到67.5%，在3D設計任務中也超過五成（52.63%），但在導航（33.3%）與瀏覽器自動化（35.9%）等複雜多步驟任務上，失敗率反而居高不下。Grok-4在瀏覽器自動化（41.03%）與網頁搜尋（41.82%）方面表現較具競爭力，而Claude 4.0 Sonnet則在金融領域（55%）表現突出。開源模型中，由中國AI新創Z.ai開發的GLM-4.5表現最佳，任務成功率達到24.68%，但與頂級商用模型仍有明顯差距。此外，o3在完成成功任務時的平均步數最少（AS 4.82），顯示其行動效率較高，但整體成功率不如GPT-5、Grok-4。

對AI代理可靠性的啟示

MCP-Universe基準測試結果顯示，現有大型語言模型在真實企業環境中的應用仍面臨諸多挑戰。模型在處理動態資料、多步推理及不熟悉工具時，表現會大幅下滑，暴露出多重脆弱性。此外，框架選擇與工具組合對AI代理的效能有實質影響，單純提升模型規模並不能解決可靠性問題。這項研究結果對AI代理的實際應用提出了警示，表明目前AI代理的任務成功率可能不如各家AI大廠所宣傳的那樣，並且在取代初階白領工作方面仍有很長的路要走。

MCP-Universe基準測試中，大型語言模型在真實企業環境下的平均成功率是多少？ | 數位時代

MCP-Universe基準測試中的大型語言模型成功率

模型在不同任務中的表現差異

對AI代理可靠性的啟示