Gemini 3 Pro相較於Gemini 2.5 Pro的顯著提升體現在哪些AI基準測試中？

Gemini 3 Pro 在 AI 基準測試中的顯著提升

根據 Google 的說法，Gemini 3 Pro 在所有 AI 基準測試中均顯著超越 Gemini 2.5 Pro。在 LMArena 排行榜上，Gemini 3 Pro 以 1501 分的成績位居榜首，展現了博士級 (PhD Level) 的推理能力，且在沒有使用任何工具的情況下，於「人類終極考試」中獲得了 37.5% 的準確率，遠高於 Gemini 2.5 Pro 的 21.6%。

「人類終極考試」的卓越表現

「人類終極考試」是由全球專家設計的一項測驗，被各家語言模型開發商視為檢驗 AI 模型性能的指標之一。Gemini 3 Pro 在此項測試中的優異表現，證明了其在理解複雜問題和進行深入推理方面的能力。相較之下，Gemini 2.5 Pro 在同一測試中的準確率為 21.6%，凸顯了 Gemini 3 Pro 的顯著提升。

其他基準測試與應用

Gemini 3 Pro 在衡量工程師代理人能力的 SWE-bench Verified 基準測試中，也以 76.2% 的表現大幅超越 Gemini 2.5 Pro。此外，Gemini 3 Pro 在 Vending-Bench 2 評測中位居榜首，該評測透過模擬販賣機營運來測試長期規劃能力。這些結果表明，Gemini 3 Pro 在多個領域都展現了優越的性能，不僅在學術基準測試中表現出色，在實際應用中也具有更高的效率和準確性。

Gemini 3 Pro相較於Gemini 2.5 Pro的顯著提升體現在哪些AI基準測試中？ | 數位時代

Gemini 3 Pro 在 AI 基準測試中的顯著提升

「人類終極考試」的卓越表現

其他基準測試與應用