根據 Google 的說法,Gemini 3 Pro 在所有 AI 基準測試中均顯著超越 Gemini 2.5 Pro。在 LMArena 排行榜上,Gemini 3 Pro 以 1501 分的成績位居榜首,展現了博士級 (PhD Level) 的推理能力,且在沒有使用任何工具的情況下,於「人類終極考試」中獲得了 37.5% 的準確率,遠高於 Gemini 2.5 Pro 的 21.6%。
「人類終極考試」是由全球專家設計的一項測驗,被各家語言模型開發商視為檢驗 AI 模型性能的指標之一。Gemini 3 Pro 在此項測試中的優異表現,證明了其在理解複雜問題和進行深入推理方面的能力。相較之下,Gemini 2.5 Pro 在同一測試中的準確率為 21.6%,凸顯了 Gemini 3 Pro 的顯著提升。
Gemini 3 Pro 在衡量工程師代理人能力的 SWE-bench Verified 基準測試中,也以 76.2% 的表現大幅超越 Gemini 2.5 Pro。此外,Gemini 3 Pro 在 Vending-Bench 2 評測中位居榜首,該評測透過模擬販賣機營運來測試長期規劃能力。這些結果表明,Gemini 3 Pro 在多個領域都展現了優越的性能,不僅在學術基準測試中表現出色,在實際應用中也具有更高的效率和準確性。
This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容