Claude Sonnet 4.5 在 OSWorld 電腦使用測試的成績是多少？

Claude Sonnet 4.5 在 OSWorld 電腦使用測試的成績

Anthropic 最新推出的 Claude Sonnet 4.5 模型在 OSWorld 電腦使用測試中取得了顯著的進展，從前代 Sonnet 4.0 的 42.2% 大幅提升至 61.4%。這一提升顯示了 Sonnet 4.5 在實際電腦操作任務處理能力上的顯著進步，並且超越了 OpenAI 的 GPT-5 Codex 以及 Google 的 Gemini 2.5 Pro 等競爭對手。

效能超越與競爭力

Sonnet 4.5 不僅在 OSWorld 電腦使用測試中表現出色，還在 SWE-bench Verified 測試中獲得了 77.2% 的高分。這些數據證明了 Sonnet 4.5 在實際開發與代理任務中的優越能力，使其成為一款極具競爭力的中階旗艦模型。Anthropic 強調 Sonnet 4.5 的核心優勢在於其「可在真實環境中更穩定地完成長鏈任務」，並且能夠在複雜的多步長任務中「連續專注」超過 30 小時，有效減少了過去常見的上下文遺失與錯誤累積問題。

多領域進化與應用

Sonnet 4.5 在程式開發、電腦操作以及多語知識等領域均有顯著提升，展現了其在不同任務類型中的卓越表現。此外，Anthropic 還推出了 Claude Code 2.0 與 Claude Agent SDK，並為網頁與 App 新增了程式執行、檔案建立與文件／試算表／簡報生成等功能，進一步擴展了 Sonnet 4.5 的應用範圍。

Claude Sonnet 4.5 在 OSWorld 電腦使用測試的成績是多少？ | 數位時代