閱讀紀錄

隱藏 →

此記錄會在頁面關閉後消失

GPT-5-Thinking-Mini 在SimpleQA測試中的棄權率和錯誤率各是多少？

Answer

GPT-5-Thinking-Mini 在 SimpleQA 測試中的棄權率和錯誤率

根據 OpenAI 的研究論文，語言模型產生「幻覺」（錯誤輸出）的主要原因，在於訓練和評測機制獎勵模型「猜測」，而非誠實表達不確定性。現行主流評測標準多採二元計分，對「不知道」或「不確定」的答案給予零分，促使模型傾向猜測。

在 GPT-5 系統卡的 SimpleQA 測試中，GPT-5-Thinking-Mini 的「棄權率」為 52%，「錯誤率」為 26%。相較之下，較舊的 OpenAI o4-mini 模型的「棄權率」僅 1%，但「錯誤率」高達 75%。

這項數據顯示，GPT-5-Thinking-Mini 傾向於在不確定的情況下選擇棄權，以降低錯誤率。研究建議修改主流評測機制，明確納入「信心門檻」與錯誤懲罰，以減少 AI 幻覺並提升可信度。

觀看原始文章

你想知道哪些？AI來解答

語言模型產生「幻覺」的主要原因是什麼？

GPT-5-Thinking-Mini 和 OpenAI o4-mini 模型在 SimpleQA 測試中的棄權率和錯誤率有何差異？

主流評測標準如何影響語言模型的行為？

OpenAI 研究論文如何建議改進評測機制以減少AI幻覺？

「信心門檻」對AI系統的可信度有何重要性？

你覺得這篇文章有幫助嗎？

有幫助

沒幫助

回報問題

1

0

0

分享給好友