Gemini 3 Pro相較於Gemini 2.5 Pro在AI基準測試中有何顯著的提升? | 數位時代

Gemini 3 Pro 相較於 Gemini 2.5 Pro 在 AI 基準測試中的顯著提升

根據 Google 的說法,Gemini 3 Pro 在所有 AI 基準測試中均顯著超越 Gemini 2.5 Pro。它在 LMArena 排行榜上以 1501 分的成績名列前茅,並且在未使用任何工具的情況下,展現出博士級的推理能力,在「人類終極考試」中獲得了 37.5% 的準確率,相較之下,Gemini 2.5 Pro 的成績為 21.6%。

「人類終極考試」是一項由全球專家設計的測驗,被各家語言模型開發商視為檢驗 AI 模型性能的指標之一。Google 強調,Gemini 3 Pro 的回應簡潔、直切重點,摒棄了 AI 常見的陳腔濫調與恭維,如同一位真正的思考夥伴,可以透過多種方式幫助使用者理解資訊與表達想法。在展示過程中,Gemini 3 Pro 甚至可以因應論文內容,生成 3D 視覺化的圖形,協助使用者更深入了解所需的內容。

Gemini 3 不僅在基準測試中表現出色,還具有廣泛的應用潛力,包括探索學習、打造一切以及規劃萬物。例如,它可以幫助學習者生成互動式記憶卡、視覺化圖表等輔助工具,甚至可以分析匹克球比賽影片,指出動作修正要點並制定全面提升的訓練計畫。對於開發者而言,Gemini 3 也能處理複雜的提示與指令,在衡量工程師代理人能力的 SWE-bench Verified 基準測試中,Gemini 3 以 76.2% 的表現大幅超越 Gemini 2.5 Pro 版本。


This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容