為什麼說多數大型語言模型在高難度知識題上「猜錯比答對多」？

大型語言模型在高難度知識題上的表現不佳原因

根據 Artificial Analysis 的 AA-Omniscience 評測，多數大型語言模型 (LLM) 在面對高難度知識題時，確實存在「猜錯比答對多」的情況。這主要是因為這些模型在知識不足時，容易做出錯誤假設，產生幻覺。即使有網路搜尋等工具輔助，模型仍然需要先具備一定的知識基礎，才能知道該搜尋什麼。這項評測採用「全知指數」，透過懲罰幻覺來衡量模型的知識可靠度，而非僅僅關注正確率。

全知指數與模型表現

在全知指數的評比中，Anthropic 的 Claude 4.1 Opus 表現領先，其優勢在於較低的幻覺率。相較之下，OpenAI 的 GPT-5.1 和 xAI 的 Grok 4 則更多地依賴較高的正確率來提升排名，但因更傾向在不確定時冒險作答，使得可靠度相對較低。值得注意的是，各模型在不同領域的表現存在差異，並不存在一款通吃的全能模型。例如，Claude 4.1 Opus 在法律、軟體工程以及人文社科等領域表現較為穩定。

知識量與可靠度的關係

評測結果顯示，模型規模與正確率之間存在正相關性，但並不意味著模型規模越大，可靠度就越高。模型越大，代表知識量越多，因此在正確率排行榜上的表現通常較為出色。然而，全知指數更關注的是模型在遇到不確定情況時是否會避免隨意作答，因此，即使是規模較小的模型，如果更懂得在不確定時選擇不作答，也能在整體可靠度上勝過規模更大的模型。這表明，在選擇 AI 模型時，誠實性是一個重要的考量因素。

為什麼說多數大型語言模型在高難度知識題上「猜錯比答對多」？ | 數位時代

大型語言模型在高難度知識題上的表現不佳原因

全知指數與模型表現

知識量與可靠度的關係