OpenAI 推出的 GPT-5.2-Codex 在 SWE-Bench Pro(實作修補測試)和 Terminal-Bench 2.0(真實終端代理測試)中取得了領先的成績。然而,根據官方資料顯示,這些優勢屬於溫和幅度,並非壓倒性的差距。這表示 GPT-5.2-Codex 在這些「貼近真實環境」的測試中表現較好,但並未完全超越其他模型。
雖然 GPT-5.2-Codex 在特定基準測試中取得領先,但並不能斷定技術已達巔峰。OpenAI 持續改進模型,例如增強長上下文理解、原生壓縮以及終端操作能力。此外,GPT-5.2-Codex 在 Windows 環境下的表現更穩定,且視覺能力也獲得提升,使其能更準確地理解截圖、技術圖表和 UI 設計稿。這些改進都顯示技術仍在不斷發展。
GPT-5.2-Codex 的主要優勢在於其「長跑型」工作流的紮實性。它在工具呼叫、事實性和推理方面都有所改進,使其能夠在大型程式碼庫中連續處理重構、框架遷移和功能開發等複雜任務,且不容易斷線或遺失上下文。此外,GPT-5.2-Codex 的資安能力也呈現台階式跳升,雖然尚未達到「高」等級,但已在模型和產品層面增加了更多防護和存取控制。
This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容