語言模型產生「幻覺」的主要原因是什麼？

Answer

語言模型產生「幻覺」的主要原因

OpenAI 的研究指出，語言模型產生「幻覺」（錯誤輸出）的主要原因在於，現行的訓練和評估機制鼓勵模型「猜測」，而非誠實地表達不確定性。目前主流的評估標準多採用二元計分，對於模型回答「不知道」或「不確定」的情況給予零分，這使得模型更傾向於猜測答案。

GPT-5-Thinking-Mini 在 SimpleQA 測試中的表現

在 GPT-5 系統卡的 SimpleQA 測試中，GPT-5-Thinking-Mini 的「棄權率」為 52%，而「錯誤率」為 26%。相較之下，較舊的 OpenAI o4-mini 模型的「棄權率」僅 1%，但「錯誤率」卻高達 75%。

數據分析與建議

這項數據顯示，GPT-5-Thinking-Mini 在不確定的情況下更傾向於選擇棄權，以此來降低錯誤率。研究建議修改目前主流的評估機制，明確納入「信心門檻」與錯誤懲罰，以減少 AI 幻覺並提升其可信度。

觀看原始文章

你想知道哪些？AI來解答

根據 OpenAI 的研究，語言模型產生「幻覺」的根本原因是什麼？

為何目前主流的 AI 評估標準會鼓勵模型「猜測」答案？

GPT-5-Thinking-Mini 在 SimpleQA 測試中的「棄權率」與「錯誤率」分別是多少？

與 GPT-5-Thinking-Mini 相比，舊款 OpenAI o4-mini 模型在 SimpleQA 測試中的表現有何差異？

研究建議如何修改 AI 評估機制以減少「幻覺」並提升可信度？

你覺得這篇文章有幫助嗎？

有幫助

沒幫助

回報問題

1

0

0 分享給好友

閱讀紀錄

隱藏 →

此記錄會在頁面關閉後消失

語言模型產生「幻覺」的主要原因是什麼？

Answer

語言模型產生「幻覺」的主要原因

GPT-5-Thinking-Mini 在 SimpleQA 測試中的表現

數據分析與建議

為什麼AI會出現幻覺？OpenAI揭評測漏洞：回答「不知道」零得分 ...

OpenAI論文指出，語言模型會產生「幻覺」的主因，在於訓練與評測機制獎勵「猜測」，而非誠實表達不確定，導致錯誤輸出持續存在。

ChatGPT是廢文製造機？英國學者揭：AI不在乎真實性，只會生成 ...

英國哲學學者揭示ChatGPT產出錯誤資訊本質，AI對真相「漠不關心」，「幻覺」一詞恐誤導公眾。

一手評測｜Perplexity AI 勁敵？開箱AI 搜尋引擎Liner、Felo｜未來商務

在重視資訊正確性的場合中，比起一些創造力較高，卻較容易出現AI幻覺的模型，許多人更偏好使用會附上來源資料的AI搜尋引擎。

拆解Perplexity：AI對話式搜尋引擎的崛起與挑戰｜Meet創業小聚

純LLM也有其弱點：若不斷更新最新知識，模型訓練成本高昂，且模型有時會產生事實錯誤的幻覺（hallucination）。