Gemini 3 Pro相較於Gemini 2.5 Pro在AI基準測試中有何顯著的提升？

Answer

Gemini 3 Pro 相較於 Gemini 2.5 Pro 在 AI 基準測試中的顯著提升

根據 Google 的說法，Gemini 3 Pro 在所有 AI 基準測試中均顯著超越 Gemini 2.5 Pro。它在 LMArena 排行榜上以 1501 分的成績名列前茅，並且在未使用任何工具的情況下，展現出博士級的推理能力，在「人類終極考試」中獲得了 37.5% 的準確率，相較之下，Gemini 2.5 Pro 的成績為 21.6%。

「人類終極考試」是一項由全球專家設計的測驗，被各家語言模型開發商視為檢驗 AI 模型性能的指標之一。Google 強調，Gemini 3 Pro 的回應簡潔、直切重點，摒棄了 AI 常見的陳腔濫調與恭維，如同一位真正的思考夥伴，可以透過多種方式幫助使用者理解資訊與表達想法。在展示過程中，Gemini 3 Pro 甚至可以因應論文內容，生成 3D 視覺化的圖形，協助使用者更深入了解所需的內容。

Gemini 3 不僅在基準測試中表現出色，還具有廣泛的應用潛力，包括探索學習、打造一切以及規劃萬物。例如，它可以幫助學習者生成互動式記憶卡、視覺化圖表等輔助工具，甚至可以分析匹克球比賽影片，指出動作修正要點並制定全面提升的訓練計畫。對於開發者而言，Gemini 3 也能處理複雜的提示與指令，在衡量工程師代理人能力的 SWE-bench Verified 基準測試中，Gemini 3 以 76.2% 的表現大幅超越 Gemini 2.5 Pro 版本。

觀看原始文章