GPT-5.1 與 Grok 4 在全知指數上的表現有何不同? | 數位時代

GPT-5.1 和 Grok 4 在全知指數上的表現差異

根據 Artificial Analysis 於 2025 年 11 月 18 日公布的 AA-Omniscience 評測,OpenAI 的 GPT-5.1 和 xAI 的 Grok 4 在全知指數上的表現存在差異。雖然兩者都透過較高的準確率提升名次,但它們更傾向於在不確定時冒險作答,導致可靠度未達頂尖水準。這與 Anthropic 的 Claude 4.1 Opus 形成對比,後者因較低的幻覺率而在全知指數上領先。

全知指數的評估標準

全知指數的核心在於衡量大型語言模型(LLM)的知識可靠度,透過加權懲罰幻覺(錯誤作答)的方式進行評估。其計算方式為:答對加一分、錯誤且有作答扣一分、選擇不作答記零分。因此,模型不僅需要具備廣泛的知識,還需要在不確定的情況下避免胡亂作答,以提高其可靠度。

幻覺率與模型規模的關係

評測結果顯示,模型規模與正確率之間存在正相關,但並不一定能提升可靠度。換句話說,雖然更大的模型通常擁有更多的知識,但在遇到不熟悉的題目時,仍然可能出現幻覺,從而拉低其全知指數。因此,在選擇模型時,應以事實可靠度、幻覺率與拒答行為作為核心準則,並根據不同領域的需求進行選擇。


This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容