GPT-5.4 在 GDPval 基準測試中以 83% 勝率超越辦公室員工,這對未來知識工作模式有何啟示? | 數位時代

GPT-5.4 在 GDPval 基準測試中超越辦公室員工的影響

OpenAI 最新發布的 GPT-5.4 模型,在 GDPval 知識工作基準測試中以 83% 的勝率超越辦公室員工,這不僅代表 AI 技術的重大突破,也對未來的知識工作模式產生深遠的啟示。GPT-5.4 的成功整合了推理、程式編寫和自主操作能力,並具備高達 100 萬個 token 的上下文視窗,使其在處理複雜任務時更具優勢。這項進展預示著 AI 在知識工作領域中的應用將更加廣泛和深入。

GPT-5.4 的技術突破與效能提升

GPT-5.4 在技術上的突破不僅體現在效能上,還包括效率和準確度的提升。在 token 使用效率方面,GPT-5.4 相較於 GPT-5.2 減少了 47% 的耗用量,這意味著在處理相同任務時,GPT-5.4 能夠更有效地利用資源。此外,GPT-5.4 在個別陳述的錯誤率降低了 33%,整體回應的出錯機率也下降了 18%,這顯示 OpenAI 在提升模型準確度方面取得了顯著進展。GPT-5.4 還具備電腦使用能力,使其能夠在桌面環境中自主操作,成功率達到 75.0%,超越了人類基準值 72.4%。

GPT-5.4 對企業市場的影響

OpenAI 此次發布 GPT-5.4,不僅僅是一次技術升級,更是一次市場策略的調整。OpenAI 同步推出了 Excel/Google Sheets 插件和金融服務套件,直接切入企業市場,與 Anthropic Claude 展開正面競爭。這些插件和服務使得 GPT-5.4 能夠直接在 Excel 或 Google Sheets 中執行分析和自動化任務,讓使用者可以用自然語言下指令,無需學習複雜的函數語法。這將大大降低企業使用 AI 的門檻,並提高工作效率。OpenAI 推出 "OpenAI for Financial Services" 新服務,瞄準 Anthropic Claude 長期深耕的企業客戶,預示著 AI 在企業市場的競爭將更加激烈。


This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容