MCP-Universe基準測試中,大型語言模型在真實企業環境下的平均成功率是多少? | 數位時代

MCP-Universe基準測試中的大型語言模型成功率

MCP-Universe基準測試由Salesforce AI Research主導開發,旨在檢驗16款大型語言模型(LLM)在真實企業應用中的表現。該測試涵蓋導航、金融分析、3D設計等六大領域,共231項任務,並連接真實伺服器進行測試。測試結果顯示,即使是最先進的LLM,如GPT-5、Grok-4、Claude-4.0-Sonnet,在真實任務中的成功率分別僅為43.72%、33.33%、29.44%,遠低於市場宣傳。這表明現有模型在長上下文、多工具、跨領域等挑戰下表現有限,而其他多數模型的成功率更低於20%。

模型在不同任務中的表現差異

以GPT-5為例,雖然在金融分析領域的完成率達到67.5%,在3D設計任務中也超過五成(52.63%),但在導航(33.3%)與瀏覽器自動化(35.9%)等複雜多步驟任務上,失敗率反而居高不下。Grok-4在瀏覽器自動化(41.03%)與網頁搜尋(41.82%)方面表現較具競爭力,而Claude 4.0 Sonnet則在金融領域(55%)表現突出。開源模型中,由中國AI新創Z.ai開發的GLM-4.5表現最佳,任務成功率達到24.68%,但與頂級商用模型仍有明顯差距。此外,o3在完成成功任務時的平均步數最少(AS 4.82),顯示其行動效率較高,但整體成功率不如GPT-5、Grok-4。

對AI代理可靠性的啟示

MCP-Universe基準測試結果顯示,現有大型語言模型在真實企業環境中的應用仍面臨諸多挑戰。模型在處理動態資料、多步推理及不熟悉工具時,表現會大幅下滑,暴露出多重脆弱性。此外,框架選擇與工具組合對AI代理的效能有實質影響,單純提升模型規模並不能解決可靠性問題。這項研究結果對AI代理的實際應用提出了警示,表明目前AI代理的任務成功率可能不如各家AI大廠所宣傳的那樣,並且在取代初階白領工作方面仍有很長的路要走。


This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容