Gemini 3 Deep Think 在「人類終極考試」中獲得 41% 的準確率,這與 Gemini 3 Pro 的表現相比,揭示了什麼樣的技術差異?
Answer
Gemini 3 Deep Think 與 Gemini 3 Pro 在「人類終極考試」中的表現差異
Google Gemini 3於2025年11月19日正式推出,並整合到包括 Gemini 3 Pro 聊天機器人、AI Mode(搜尋)、Gemini App、開發者和企業端等全線產品中。其中,Gemini 3 Pro 在所有AI基準測試中均超越了 Gemini 2.5 Pro,並在「人類終極考試」中獲得了 37.5% 的準確率。而 Gemini 3 Deep Think 在同一考試中更進一步,達到了 41% 的準確率。
技術差異的揭示
Gemini 3 Deep Think 在「人類終極考試」中超越 Gemini 3 Pro 的表現,揭示了兩者之間存在顯著的技術差異。Deep Think 版本的 41% 準確率表明其在處理複雜問題、邏輯推理和知識整合方面具有更強的能力。這可能歸功於 Deep Think 版本採用了更先進的神經網路架構、更大的模型規模,或更精密的訓練方法。這些技術優勢使得 Deep Think 在需要深度思考和綜合判斷的任務中表現更佳。
Gemini 3 的整體技術優勢
Gemini 3 在學習、創造和規劃方面都展現出更強的能力。例如,Gemini 3 可以生成互動式記憶卡和視覺化圖表,協助學習者更有效地掌握知識。此外,它還能分析匹克球比賽影片,提供動作修正建議和全面的訓練計畫。對於開發者而言,Gemini 3 在 SWE-bench Verified 基準測試中表現出色,準確率達到 76.2%,大幅超越了 Gemini 2.5 Pro 版本。同時,Gemini 3 在 Vending-Bench 2 的評測中也位居榜首,展現了其在模擬營運中保持穩定工具使用和決策品質的能力。