根據 Anthropic 官方資訊,Claude Sonnet 4.5 在 Vals AI Finance Agent(金融分析代理)測試中達到了 92% 的準確度。顯示其在金融分析領域具有高度的專業性和可靠性。
Claude Sonnet 4.5 被 Anthropic 譽為「迄今最強」的版本,並在多項基準測試中表現出色。除了金融分析代理測試外,它在 SWE-bench Verified 測試中取得了 77.2% 的成績,在 OSWorld 測試中取得了 61.4% 的成績,均超越了 OpenAI 的 GPT-5 Codex 和 Google 的 Gemini 2.5 Pro。這顯示 Sonnet 4.5 在多個領域均有顯著提升,具備更廣泛的應用潛力。
Claude Sonnet 4.5 的主要優勢在於它能夠在複雜的多步長任務中「連續專注」超過 30 小時,並在程式開發、電腦操作和推理計算方面展現出整體提升。Anthropic 強調其代理行為在長時間情境下能維持一致性,減少過去常見的上下文遺失與錯誤累積。這意味著 Sonnet 4.5 在處理需要長時間專注和複雜計算的任務時,能夠提供更可靠和準確的結果。
This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容