GPT-5.1 與 Grok 4 在全知指數上的表現有何不同？

GPT-5.1 和 Grok 4 在全知指數上的表現差異

根據 Artificial Analysis 於 2025 年 11 月 18 日公布的 AA-Omniscience 評測，OpenAI 的 GPT-5.1 和 xAI 的 Grok 4 在全知指數上的表現存在差異。雖然兩者都透過較高的準確率提升名次，但它們更傾向於在不確定時冒險作答，導致可靠度未達頂尖水準。這與 Anthropic 的 Claude 4.1 Opus 形成對比，後者因較低的幻覺率而在全知指數上領先。

全知指數的評估標準

全知指數的核心在於衡量大型語言模型（LLM）的知識可靠度，透過加權懲罰幻覺（錯誤作答）的方式進行評估。其計算方式為：答對加一分、錯誤且有作答扣一分、選擇不作答記零分。因此，模型不僅需要具備廣泛的知識，還需要在不確定的情況下避免胡亂作答，以提高其可靠度。

幻覺率與模型規模的關係

評測結果顯示，模型規模與正確率之間存在正相關，但並不一定能提升可靠度。換句話說，雖然更大的模型通常擁有更多的知識，但在遇到不熟悉的題目時，仍然可能出現幻覺，從而拉低其全知指數。因此，在選擇模型時，應以事實可靠度、幻覺率與拒答行為作為核心準則，並根據不同領域的需求進行選擇。

GPT-5.1 與 Grok 4 在全知指數上的表現有何不同？ | 數位時代

GPT-5.1 和 Grok 4 在全知指數上的表現差異

全知指數的評估標準

幻覺率與模型規模的關係