AA-Omniscience 全知指標旨在衡量大型語言模型 (LLM) 在高難度知識題上的可靠度,而非僅僅是準確度。其核心衡量標準為「全知指數」(Omniscience Index),該指數透過加權懲罰幻覺 (錯誤作答) 的方式,來評估模型在知識方面的可靠性。
全知指數的計算方式為:答對加一分、錯誤且有作答扣一分、選擇不作答記零分。這種計算方式強調了模型在知識不足時選擇不作答的重要性,避免模型因胡亂作答而產生幻覺。Artificial Analysis 團隊強調,模型嵌入的知識對於真實世界的應用至關重要,模型應具備辨識自身知識邊界的能力。
根據 AA-Omniscience 的評測結果,Claude 4.1 Opus 在全知指數上領先,主要歸功於其較低的幻覺率。GPT-5.1 和 Grok 4 則主要依靠較高的準確率來提升排名,但在可靠性方面略遜一籌。各模型在不同領域的表現也存在差異,例如 Claude 4.1 Opus 在法律、軟體工程、人文社科等領域表現較為穩定。
This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容