GPT-5.4 在 GDPval 基準測試中以 83% 勝率超越辦公室員工，這對未來知識工作模式有何啟示？

GPT-5.4 在 GDPval 基準測試中超越辦公室員工的影響

OpenAI 最新發布的 GPT-5.4 模型，在 GDPval 知識工作基準測試中以 83% 的勝率超越辦公室員工，這不僅代表 AI 技術的重大突破，也對未來的知識工作模式產生深遠的啟示。GPT-5.4 的成功整合了推理、程式編寫和自主操作能力，並具備高達 100 萬個 token 的上下文視窗，使其在處理複雜任務時更具優勢。這項進展預示著 AI 在知識工作領域中的應用將更加廣泛和深入。

GPT-5.4 的技術突破與效能提升

GPT-5.4 在技術上的突破不僅體現在效能上，還包括效率和準確度的提升。在 token 使用效率方面，GPT-5.4 相較於 GPT-5.2 減少了 47% 的耗用量，這意味著在處理相同任務時，GPT-5.4 能夠更有效地利用資源。此外，GPT-5.4 在個別陳述的錯誤率降低了 33%，整體回應的出錯機率也下降了 18%，這顯示 OpenAI 在提升模型準確度方面取得了顯著進展。GPT-5.4 還具備電腦使用能力，使其能夠在桌面環境中自主操作，成功率達到 75.0%，超越了人類基準值 72.4%。

GPT-5.4 對企業市場的影響

OpenAI 此次發布 GPT-5.4，不僅僅是一次技術升級，更是一次市場策略的調整。OpenAI 同步推出了 Excel/Google Sheets 插件和金融服務套件，直接切入企業市場，與 Anthropic Claude 展開正面競爭。這些插件和服務使得 GPT-5.4 能夠直接在 Excel 或 Google Sheets 中執行分析和自動化任務，讓使用者可以用自然語言下指令，無需學習複雜的函數語法。這將大大降低企業使用 AI 的門檻，並提高工作效率。OpenAI 推出 "OpenAI for Financial Services" 新服務，瞄準 Anthropic Claude 長期深耕的企業客戶，預示著 AI 在企業市場的競爭將更加激烈。

GPT-5.4 在 GDPval 基準測試中以 83% 勝率超越辦公室員工，這對未來知識工作模式有何啟示？ | 數位時代

GPT-5.4 在 GDPval 基準測試中超越辦公室員工的影響

GPT-5.4 的技術突破與效能提升

GPT-5.4 對企業市場的影響