Gemini 3 Pro 相較於 GPT-4.5 和 Claude Sonnet 4.5，在哪些基準測試中表現更優異？

Gemini 3 Pro 在多項關鍵的 AI 基準測試中表現優於 GPT-4.5 和 Claude Sonnet 4.5，確立了其在 AI 模型領域的領先地位。這些基準測試涵蓋了不同的評估面向，包括推理能力、編碼能力和多模態理解能力。

基準測試	Gemini 3 Pro (分數/Elo)	GPT-4.5 (分數/Elo)	Claude Sonnet 4.5 (分數/Elo)
LMArena 排行榜	1501 Elo (榜首)	—	—
競賽編碼問題 (LiveCodeBench Pro)	2,439 Elo	2,243 Elo	1,418 Elo
多模態理解 (MMMU-Pro)	81.0%	76.0%	68.0%
科學知識 (GPQA Diamond)	91.9% (未使用工具)	88.1%	83.4%

從以上數據可見，Gemini 3 Pro 在 LMArena 排行榜上名列前茅，競賽編碼問題 LiveCodeBench Pro 中取得最高的 Elo 分數，多模態理解（MMMU-Pro）和科學知識（GPQA Diamond）測試中也獲得了最高的百分比。

LMArena 排行榜：Gemini 3 Pro 在此排行榜中位居榜首，顯示其在整體性能和使用者偏好方面具有優勢。
競賽編碼問題 (LiveCodeBench Pro)：Gemini 3 Pro 在編碼方面的能力明顯優於其他模型，這對於需要程式碼生成和理解的應用場景至關重要。
多模態理解 (MMMU-Pro)：Gemini 3 Pro 在處理和理解多模態輸入（例如圖像和文字）方面表現出色，使其在需要跨多種模態進行推理的任務中更具優勢。
科學知識 (GPQA Diamond)：Gemini 3 Pro 在科學知識方面的表現優異，顯示其在處理複雜的科學問題和知識推理方面具有卓越的能力。

Gemini 3 Pro 相較於 GPT-4.5 和 Claude Sonnet 4.5，在哪些基準測試中表現更優異？ | 數位時代