Gemini 3 Pro 在「人類終極考試」中取得 37.5% 的準確率,相較於 Gemini 2.5 Pro 有何顯著提升?
Answer
Gemini 3 Pro 在「人類終極考試」中的顯著提升
根據《數位時代》的報導,Google於2025年11月19日正式推出 Gemini 3,並罕見地全線產品導入。其中,Gemini 3 Pro 在「人類終極考試」中取得 37.5% 的準確率,相較於 Gemini 2.5 Pro 的 21.6% 展現了顯著的提升。這項「人類終極考試」被各家語言模型開發商視為檢驗 AI 模型性能的指標之一,由全球專家設計。
AA-Omniscience 評測的領先地位
由 Artificial Analysis 釋出的 AA-Omniscience 評測顯示,Gemini 3 Pro 在整體指標中登頂,尤其在正確率上顯著領先,比次高的 Grok 4 高出 14 分。這反映了其在跨領域知識題的「答對比例」有重大提升。評測團隊指出,AA-Omniscience 的設計不僅檢驗模型的知識覆蓋與正確性,也觀察模型在面對知識缺口時是否具備適當的「拒答」能力,藉此評估可靠性。
Gemini 3 Pro 的其他優勢
除了在「人類終極考試」和 AA-Omniscience 評測中的優異表現外,Gemini 3 Pro 在所有 AI 基準測試中均顯著超越 Gemini 2.5 Pro。它以 1501 分的成績高居 LMArena 排行榜首位,在無使用任何工具的情況下,展現博士級 (PhD Level) 推理能力。Google 強調 Gemini 3 Pro 回應簡潔、直切重點,摒棄 AI 常見的陳腔濫調與恭維,如同一位真正的思考夥伴,透過多種方式幫助使用者理解資訊與表達想法。