閱讀紀錄

隱藏 →

此記錄會在頁面關閉後消失

主流評測標準如何影響語言模型的行為？

Answer

主流評測標準如何影響語言模型的行為

OpenAI 的研究指出，語言模型產生「幻覺」（錯誤輸出）的主要原因，與訓練和評測機制獎勵模型「猜測」而非誠實表達不確定性有關。現行主流評測標準多採二元計分，對「不知道」或「不確定」的答案給予零分，導致模型傾向於猜測以避免零分。

GPT-5-Thinking-Mini 在 SimpleQA 測試中的數據

在 GPT-5 系統卡的 SimpleQA 測試中，GPT-5-Thinking-Mini 的「棄權率」為 52%，「錯誤率」為 26%。相較之下，較舊的 OpenAI o4-mini 模型的「棄權率」僅 1%，但「錯誤率」高達 75%。這項數據顯示，GPT-5-Thinking-Mini 傾向於在不確定的情況下選擇棄權，以降低錯誤率。

評測機制修改建議

研究建議修改主流評測機制，明確納入「信心門檻」與錯誤懲罰，以減少 AI 幻覺並提升可信度。這意味著，評測標準應該鼓勵模型在不確定的情況下選擇棄權，同時對錯誤答案給予更重的懲罰，從而促使模型更加謹慎和誠實。

觀看原始文章

ChatGPT開Plugins外掛，Expedia、Booking都加入！AI如何影響 ...

比起AI技術本身，未來旅客的行為模式，會因為AI有什麼轉變，可能是旅遊產業更要花心力思考的方向。

跟上歐盟，台灣的AI基本法9月上路！聚焦7大面向，還要設「AI打假 ...

台灣尚無人工智慧專法及產業評測標準，因此有訂立人工智慧基本法的必要。

ChatGPT關鍵技術Transformer的8位作者，現在都在做什麼？|數位 ...

論文中的語言模型Transformer，是ChatGPT、語言模型GPT背後的關鍵架構。

國泰產險數位轉型新里程！AI與數據驅動加速全險種理賠、提升風控更 ...

國泰產險督導吳香妮表示，系統導入的體傷估損模組更進一步運用LLM(Large Language Model)大型語言模型及ChatGPT生成式AI技術，自動分析判決書中影響賠付金額

你想知道哪些？AI來解答

主流評測標準為何會導致語言模型產生幻覺？

GPT-5-Thinking-Mini 在 SimpleQA 測試中的棄權率和錯誤率為何？

與 GPT-5-Thinking-Mini 相比，舊款 OpenAI o4-mini 模型的 SimpleQA 測試表現有何不同？

研究建議修改評測機制，應納入哪些新要素來減少 AI 幻覺？

修改評測機制後，預期會對語言模型產生什麼樣的行為改變？

你覺得這篇文章有幫助嗎？

有幫助

沒幫助

回報問題

1

0

0

分享給好友