Gemini 3 Deep Think 在「人類終極考試」中的表現,又比 Gemini 3 Pro 高出多少?這是否意味著更強大的AI推理能力?
Answer
Gemini 3 Deep Think 在「人類終極考試」中的表現
根據 Google 提供的資訊,Gemini 3 Deep Think 在「人類終極考試」中獲得了 41% 的準確率。相較之下,Gemini 3 Pro 在同一測試中的準確率為 37.5%。因此,Gemini 3 Deep Think 比 Gemini 3 Pro 高出了 3.5 個百分點。
更強大的 AI 推理能力?
Gemini 3 Deep Think 在「人類終極考試」中更高的準確率可能意味著更強大的 AI 推理能力。這項考試被各家語言模型開發商視為檢驗 AI 模型性能的指標之一,由全球專家設計。Gemini 3 Deep Think 的優異表現表明其在理解複雜問題和提供準確答案方面具有更高的能力。然而,需要注意的是,Gemini 3 Deep Think 優先開放給測試人員使用,之後才會提供給 Google AI Ultra 的訂閱用戶。
Gemini 3 的整體表現
Gemini 3 Pro 在所有 AI 基準測試中均顯著超越 Gemini 2.5 Pro,並以 1501 分的成績高居 LMArena 排行榜首位。此外,Gemini 3 能夠生成互動式記憶卡、視覺化圖表等輔助工具,並分析匹克球比賽影片,指出動作修正要點並制定訓練計畫。對於開發者而言,Gemini 3 也能處理複雜的提示與指令,並在 SWE-bench Verified 基準測試中以 76.2% 的表現大幅超越 Gemini 2.5 Pro 版本。在長期規劃能力方面,Gemini 3 在 Vending-Bench 2 的評測中位居榜首,能夠在整年模擬營運中保持穩定的工具使用與決策品質,並創造更高收益。