GPT-4o為何被稱為「全能模型」?
Answer
GPT-4o 被稱為「全能模型」的原因
OpenAI 在 Google I/O 大會前夕發布了全新模型 GPT-4o,其「全能」之名源於其跨越文字、音訊及視訊的強大推理能力。GPT-4o 中的 "o" 代表 "omni",意即「全、一切」,象徵著它能即時處理和理解多種模態的信息。OpenAI 官方聲明指出,GPT-4o 能夠即時推理音訊、視訊及文字,使其成為一個真正的全方位模型。
功能整合與效能提升
相較於過去將文字、語音、圖像功能分散在不同模型中的做法,GPT-4o 將所有功能整合在一個模型中,被稱為 omnimodel(全能模型)。這使得 GPT-4o 的回應速度大幅提升,能更自然地與用戶互動。與上一代旗艦模型 GPT-4 Turbo 相比,GPT-4o 在英文及程式語言上的表現相仿,但在其他語言的效能上有顯著提升,API 的速度也更快,成本更降低了多達 50%。
更接近人類的回應與互動體驗
GPT-4o 的另一大亮點是其接近人類的回應時間,最短只需 232 毫秒,平均 320 毫秒即可回應問題,遠優於 GPT-3.5 和 GPT-4 在語音模式下的回應時間(分別為 2.8 秒和 5.4 秒)。OpenAI 的演示顯示,GPT-4o 能夠進行即時口譯,用更飽滿的語氣講述故事,甚至能用接近人類的口吻教導數學問題。GPT-4o 甚至能夠「讀懂」用戶的表情與語氣,並根據情境做出適當的回應,實現更自然、豐富且具互動性的溝通體驗。
OpenAI 的願景與未來發展
OpenAI 技術長 Mira Murati 表示,GPT-4o 的開發靈感來自人類的交談過程,旨在打造一個更自然、更人性化的 AI 互動體驗。OpenAI 執行長 Sam Altman 也對 GPT-4o 的表現感到驚艷,認為它就像科幻電影中的 AI 一樣。OpenAI 計劃未來進一步提升 GPT 技術,例如讓 AI 能夠在觀看體育賽事轉播後向用戶解釋競賽規則。儘管 GPT-4o 在演示過程中偶爾會出現一些小插曲,但其強大的功能和潛力已使其成為備受矚目的全能模型。