AA‑Omniscience 全知指標的核心衡量標準是什麼？

Answer

AA-Omniscience 全知指標的核心衡量標準

AA-Omniscience 全知指標旨在衡量大型語言模型 (LLM) 在高難度知識題上的可靠度，而非僅僅是準確度。其核心衡量標準為「全知指數」(Omniscience Index)，該指數透過加權懲罰幻覺 (錯誤作答) 的方式，來評估模型在知識方面的可靠性。

全知指數的計算方法

全知指數的計算方式為：答對加一分、錯誤且有作答扣一分、選擇不作答記零分。這種計算方式強調了模型在知識不足時選擇不作答的重要性，避免模型因胡亂作答而產生幻覺。Artificial Analysis 團隊強調，模型嵌入的知識對於真實世界的應用至關重要，模型應具備辨識自身知識邊界的能力。

評測結果與模型表現

根據 AA-Omniscience 的評測結果，Claude 4.1 Opus 在全知指數上領先，主要歸功於其較低的幻覺率。GPT-5.1 和 Grok 4 則主要依靠較高的準確率來提升排名，但在可靠性方面略遜一籌。各模型在不同領域的表現也存在差異，例如 Claude 4.1 Opus 在法律、軟體工程、人文社科等領域表現較為穩定。

觀看原始文章