閱讀記錄

隱藏 →
此為暫時記錄,會在關閉頁面後消失

Claude Sonnet 4.5 在 OSWorld 電腦使用測試的成績是多少?

Answer

Claude Sonnet 4.5 在 OSWorld 電腦使用測試的成績

Anthropic 最新推出的 Claude Sonnet 4.5 模型在 OSWorld 電腦使用測試中取得了顯著的進展,從前代 Sonnet 4.0 的 42.2% 大幅提升至 61.4%。這一提升顯示了 Sonnet 4.5 在實際電腦操作任務處理能力上的顯著進步,並且超越了 OpenAI 的 GPT-5 Codex 以及 Google 的 Gemini 2.5 Pro 等競爭對手。

效能超越與競爭力

Sonnet 4.5 不僅在 OSWorld 電腦使用測試中表現出色,還在 SWE-bench Verified 測試中獲得了 77.2% 的高分。這些數據證明了 Sonnet 4.5 在實際開發與代理任務中的優越能力,使其成為一款極具競爭力的中階旗艦模型。Anthropic 強調 Sonnet 4.5 的核心優勢在於其「可在真實環境中更穩定地完成長鏈任務」,並且能夠在複雜的多步長任務中「連續專注」超過 30 小時,有效減少了過去常見的上下文遺失與錯誤累積問題。

多領域進化與應用

Sonnet 4.5 在程式開發、電腦操作以及多語知識等領域均有顯著提升,展現了其在不同任務類型中的卓越表現。此外,Anthropic 還推出了 Claude Code 2.0 與 Claude Agent SDK,並為網頁與 App 新增了程式執行、檔案建立與文件/試算表/簡報生成等功能,進一步擴展了 Sonnet 4.5 的應用範圍。

你想知道哪些?AI來解答

Claude Sonnet 4.5 在 OSWorld 電腦使用測試中的成績是多少?

more

Claude Sonnet 4.5 在 OSWorld 電腦使用測試中的成績相比 Sonnet 4.0 有何提升?

more

Claude Sonnet 4.5 在 SWE-bench Verified 測試中獲得了多少分數?

more

Claude Sonnet 4.5 的核心優勢是什麼?

more

Anthropic 為擴展 Sonnet 4.5 的應用範圍推出了哪些新工具和功能?

more

你覺得這篇文章有幫助嗎?

likelike
有幫助
unlikeunlike
沒幫助
reportreport
回報問題
view
1
like
0
unlike
0
分享給好友
line facebook link