Gemini 3 Pro 相較於 GPT-4.5 和 Claude Sonnet 4.5,在哪些基準測試中表現更優異? | 數位時代

Gemini 3 Pro 在基準測試中的優勢

Gemini 3 Pro 在多項關鍵的 AI 基準測試中表現優於 GPT-4.5 和 Claude Sonnet 4.5,確立了其在 AI 模型領域的領先地位。這些基準測試涵蓋了不同的評估面向,包括推理能力、編碼能力和多模態理解能力。

基準測試結果比較

基準測試 Gemini 3 Pro (分數/Elo) GPT-4.5 (分數/Elo) Claude Sonnet 4.5 (分數/Elo)
LMArena 排行榜 1501 Elo (榜首)
競賽編碼問題 (LiveCodeBench Pro) 2,439 Elo 2,243 Elo 1,418 Elo
多模態理解 (MMMU-Pro) 81.0% 76.0% 68.0%
科學知識 (GPQA Diamond) 91.9% (未使用工具) 88.1% 83.4%

從以上數據可見,Gemini 3 Pro 在 LMArena 排行榜上名列前茅,競賽編碼問題 LiveCodeBench Pro 中取得最高的 Elo 分數,多模態理解(MMMU-Pro)和科學知識(GPQA Diamond)測試中也獲得了最高的百分比。

深入分析


This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容