根據 Artificial Analysis 的 AA-Omniscience 評測,多數大型語言模型 (LLM) 在面對高難度知識題時,確實存在「猜錯比答對多」的情況。這主要是因為這些模型在知識不足時,容易做出錯誤假設,產生幻覺。即使有網路搜尋等工具輔助,模型仍然需要先具備一定的知識基礎,才能知道該搜尋什麼。這項評測採用「全知指數」,透過懲罰幻覺來衡量模型的知識可靠度,而非僅僅關注正確率。
在全知指數的評比中,Anthropic 的 Claude 4.1 Opus 表現領先,其優勢在於較低的幻覺率。相較之下,OpenAI 的 GPT-5.1 和 xAI 的 Grok 4 則更多地依賴較高的正確率來提升排名,但因更傾向在不確定時冒險作答,使得可靠度相對較低。值得注意的是,各模型在不同領域的表現存在差異,並不存在一款通吃的全能模型。例如,Claude 4.1 Opus 在法律、軟體工程以及人文社科等領域表現較為穩定。
評測結果顯示,模型規模與正確率之間存在正相關性,但並不意味著模型規模越大,可靠度就越高。模型越大,代表知識量越多,因此在正確率排行榜上的表現通常較為出色。然而,全知指數更關注的是模型在遇到不確定情況時是否會避免隨意作答,因此,即使是規模較小的模型,如果更懂得在不確定時選擇不作答,也能在整體可靠度上勝過規模更大的模型。這表明,在選擇 AI 模型時,誠實性是一個重要的考量因素。
This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容