Claude Sonnet 4.5 在 OSWorld 電腦使用測試的成績是多少? | 數位時代

Claude Sonnet 4.5 在 OSWorld 電腦使用測試的成績

Anthropic 最新推出的 Claude Sonnet 4.5 模型在 OSWorld 電腦使用測試中取得了顯著的進展,從前代 Sonnet 4.0 的 42.2% 大幅提升至 61.4%。這一提升顯示了 Sonnet 4.5 在實際電腦操作任務處理能力上的顯著進步,並且超越了 OpenAI 的 GPT-5 Codex 以及 Google 的 Gemini 2.5 Pro 等競爭對手。

效能超越與競爭力

Sonnet 4.5 不僅在 OSWorld 電腦使用測試中表現出色,還在 SWE-bench Verified 測試中獲得了 77.2% 的高分。這些數據證明了 Sonnet 4.5 在實際開發與代理任務中的優越能力,使其成為一款極具競爭力的中階旗艦模型。Anthropic 強調 Sonnet 4.5 的核心優勢在於其「可在真實環境中更穩定地完成長鏈任務」,並且能夠在複雜的多步長任務中「連續專注」超過 30 小時,有效減少了過去常見的上下文遺失與錯誤累積問題。

多領域進化與應用

Sonnet 4.5 在程式開發、電腦操作以及多語知識等領域均有顯著提升,展現了其在不同任務類型中的卓越表現。此外,Anthropic 還推出了 Claude Code 2.0 與 Claude Agent SDK,並為網頁與 App 新增了程式執行、檔案建立與文件/試算表/簡報生成等功能,進一步擴展了 Sonnet 4.5 的應用範圍。


This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容