閱讀紀錄

隱藏 →

此記錄會在頁面關閉後消失

GPT-5.1 與 Grok 4 在全知指數上的表現有何不同？

Answer

GPT-5.1 和 Grok 4 在全知指數上的表現差異

根據 Artificial Analysis 於 2025 年 11 月 18 日公布的 AA-Omniscience 評測，OpenAI 的 GPT-5.1 和 xAI 的 Grok 4 在全知指數上的表現存在差異。雖然兩者都透過較高的準確率提升名次，但它們更傾向於在不確定時冒險作答，導致可靠度未達頂尖水準。這與 Anthropic 的 Claude 4.1 Opus 形成對比，後者因較低的幻覺率而在全知指數上領先。

全知指數的評估標準

全知指數的核心在於衡量大型語言模型（LLM）的知識可靠度，透過加權懲罰幻覺（錯誤作答）的方式進行評估。其計算方式為：答對加一分、錯誤且有作答扣一分、選擇不作答記零分。因此，模型不僅需要具備廣泛的知識，還需要在不確定的情況下避免胡亂作答，以提高其可靠度。

幻覺率與模型規模的關係

評測結果顯示，模型規模與正確率之間存在正相關，但並不一定能提升可靠度。換句話說，雖然更大的模型通常擁有更多的知識，但在遇到不熟悉的題目時，仍然可能出現幻覺，從而拉低其全知指數。因此，在選擇模型時，應以事實可靠度、幻覺率與拒答行為作為核心準則，並根據不同領域的需求進行選擇。

觀看原始文章

哪一款AI最可靠？研究揭Claude家族最老實：為何對LLM來說，坦承 ...

AI模型評比平台Artificial Analysis指出，多數LLM其實「猜錯比答對多」，而Claude 4.1 Opus因較低幻覺率領先。

你想知道哪些？AI來解答

GPT-5.1 和 Grok 4 在全知指數上的表現有何不同？

Claude 4.1 Opus 如何在全知指數評測中脫穎而出？

全知指數是如何評估大型語言模型的知識可靠度的？

幻覺率與模型規模之間是否存在絕對的正相關？

在選擇大型語言模型時，除了準確率，還有哪些關鍵的評估指標？

你覺得這篇文章有幫助嗎？

有幫助

沒幫助

回報問題

1

0

0

分享給好友