OpenAI 的研究報告〈Why Language Models Hallucinate〉指出,AI 模型產生幻覺,也就是輸出錯誤或不實資訊,並非單純的技術瑕疵,而是源於訓練和評估機制的獎勵偏差。現行的機制鼓勵模型在不確定時「猜測」答案,而非誠實地承認「不知道」,導致錯誤資訊不斷累積。這種現象類似於考試時,猜題可能得分,但不答則肯定沒分,因此模型傾向於冒險猜測。
目前主流的 AI 評測標準多採用二元計分方式,答對得分,答錯或回答「不知道」則一律零分。這種評分方式促使模型傾向於猜測答案,因為即使是隨機猜測也有可能得分,而坦承「不知道」則肯定無法得分。這種機制促使模型傾向於猜測答案以提高得分機會,而減少了它們承認自身知識不足的意願。
為了減少 AI 幻覺並提升 AI 的可信度,OpenAI 的研究建議修改主流評測機制,明確納入「信心門檻」與錯誤懲罰。模型在回答問題時需要評估自身答案的準確性,並設定一個可接受的信心水平。如果模型對答案的信心不足,則應該選擇不回答,而不是隨意猜測。同時,對於錯誤的回答應該給予懲罰,以鼓勵模型更加謹慎。透過這些調整,AI 系統可以更準確地判斷何時應該給出答案,何時應該承認自己的不足,從而減少幻覺的產生,提升整體的可信度。
This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容