GPT-5-Thinking-Mini 在SimpleQA測試中的棄權率和錯誤率各是多少?
Answer
GPT-5-Thinking-Mini 在 SimpleQA 測試中的棄權率和錯誤率
根據 OpenAI 的研究論文,語言模型產生「幻覺」(錯誤輸出)的主要原因,在於訓練和評測機制獎勵模型「猜測」,而非誠實表達不確定性。現行主流評測標準多採二元計分,對「不知道」或「不確定」的答案給予零分,促使模型傾向猜測。
在 GPT-5 系統卡的 SimpleQA 測試中,GPT-5-Thinking-Mini 的「棄權率」為 52%,「錯誤率」為 26%。相較之下,較舊的 OpenAI o4-mini 模型的「棄權率」僅 1%,但「錯誤率」高達 75%。
這項數據顯示,GPT-5-Thinking-Mini 傾向於在不確定的情況下選擇棄權,以降低錯誤率。研究建議修改主流評測機制,明確納入「信心門檻」與錯誤懲罰,以減少 AI 幻覺並提升可信度。