Google Gemini 3 系列模型與先前版本相比，有哪些關鍵的技術突破與提升？

Answer

Google Gemini 3 系列的技術突破與提升

Google Gemini 3 是最新的 AI 模型系列，其中的 Gemini 3 Pro 目前已在 AI Studio 中免費提供。Gemini 3 的目標是協助專業人士實現任何創意，因此在技術上有顯著的突破與提升，使其不再僅是輔助工具，而是主動的思考與規劃夥伴。這些突破包括更先進的推理能力、更卓越的指令遵循與工具使用、更強大的編碼性能，以及對長脈絡視窗的支援。整體而言，Gemini 3 在多個關鍵領域設立了新標準，超越了先前的版本。

關鍵技術突破與提升

推理能力：Gemini 3 具備最先進的推理能力，能夠掌握前所未有的深度和細微差異。例如，在複雜的科學知識測試（GPQA Diamond）中，Gemini 3 Pro 獲得 91.9% 的高分，展現出博士級的推理能力。這表示 Gemini 3 能夠提供更聰明、簡潔且直接的回應，提供真知灼見，而非陳腔濫調。\n2. 代理人與工具使用：Gemini 3 在指令遵循與更有意義的工具使用方面有所提升。例如，透過 Google Antigravity 平台，Gemini 3 能夠自主執行複雜的端對端軟體開發任務，更好地協助開發者和管理者。在衡量編碼代理能力的 SWE-bench Verified 中，Gemini 3 的得分為 76.2%，大幅超越 Gemini 2.5 Pro 的 59.6%。\n3. 編碼性能：Gemini 3 在代理式工作流程和複雜的零樣本任務 (zero-shot tasks) 方面表現出色。例如，在 Terminal-Bench 2.0 上的得分為 54.2%，遠高於 Gemini 2.5 Pro 的 32.6%。這種提升使得 Gemini 3 能夠將高階想法（如草圖和提示）轉化為豐富且互動性的應用程式。\n4. 長脈絡視窗：Gemini 3 支援 100 萬個詞元的輸入脈絡窗口。在長脈絡性能（MRCR v2, 128k 平均）上，Gemini 3 Pro 的得分為 77.0%，遠高於 Gemini 2.5 Pro 的 58.0%。這使得 Gemini 3 能夠處理大型資料集，並從數小時連續鏡頭中合成敘事並精確定位細節。

其他核心功能與優勢

Gemini 3 還具備其他核心功能和技術優勢，包括世界領先的多模態理解能力，能夠跨文字、圖像、影片、音訊，甚至是程式碼進行推理。此外，Gemini 3 能夠無縫整合這些資訊，並在多模態理解基準測試上創下新高。Gemini 3 的改進代理式能力，使其能同時處理多步驟任務，並建構更有助益且智能的個人 AI 助理。

觀看原始文章