Google Gemini 3 系列模型與先前版本相比,有哪些關鍵的技術突破與提升?
Answer
Google Gemini 3 系列的技術突破與提升
Google Gemini 3 是最新的 AI 模型系列,其中的 Gemini 3 Pro 目前已在 AI Studio 中免費提供。Gemini 3 的目標是協助專業人士實現任何創意,因此在技術上有顯著的突破與提升,使其不再僅是輔助工具,而是主動的思考與規劃夥伴。這些突破包括更先進的推理能力、更卓越的指令遵循與工具使用、更強大的編碼性能,以及對長脈絡視窗的支援。整體而言,Gemini 3 在多個關鍵領域設立了新標準,超越了先前的版本。
關鍵技術突破與提升
- 推理能力:Gemini 3 具備最先進的推理能力,能夠掌握前所未有的深度和細微差異。例如,在複雜的科學知識測試(GPQA Diamond)中,Gemini 3 Pro 獲得 91.9% 的高分,展現出博士級的推理能力。這表示 Gemini 3 能夠提供更聰明、簡潔且直接的回應,提供真知灼見,而非陳腔濫調。\n2. 代理人與工具使用:Gemini 3 在指令遵循與更有意義的工具使用方面有所提升。例如,透過 Google Antigravity 平台,Gemini 3 能夠自主執行複雜的端對端軟體開發任務,更好地協助開發者和管理者。在衡量編碼代理能力的 SWE-bench Verified 中,Gemini 3 的得分為 76.2%,大幅超越 Gemini 2.5 Pro 的 59.6%。\n3. 編碼性能:Gemini 3 在代理式工作流程和複雜的零樣本任務 (zero-shot tasks) 方面表現出色。例如,在 Terminal-Bench 2.0 上的得分為 54.2%,遠高於 Gemini 2.5 Pro 的 32.6%。這種提升使得 Gemini 3 能夠將高階想法(如草圖和提示)轉化為豐富且互動性的應用程式。\n4. 長脈絡視窗:Gemini 3 支援 100 萬個詞元的輸入脈絡窗口。在長脈絡性能(MRCR v2, 128k 平均)上,Gemini 3 Pro 的得分為 77.0%,遠高於 Gemini 2.5 Pro 的 58.0%。這使得 Gemini 3 能夠處理大型資料集,並從數小時連續鏡頭中合成敘事並精確定位細節。
其他核心功能與優勢
Gemini 3 還具備其他核心功能和技術優勢,包括世界領先的多模態理解能力,能夠跨文字、圖像、影片、音訊,甚至是程式碼進行推理。此外,Gemini 3 能夠無縫整合這些資訊,並在多模態理解基準測試上創下新高。Gemini 3 的改進代理式能力,使其能同時處理多步驟任務,並建構更有助益且智能的個人 AI 助理。