論文中提到的「單例率(singleton rate)」概念是什麼意思?
Answer
單例率 (Singleton Rate) 的概念
「單例率」這個概念指的是,在人工智慧(AI)的訓練過程中,某個特定的知識點或事實只在訓練資料中出現過一次的頻率。這個概念由 OpenAI 在其論文「大型語言模型為何會產生幻覺(Why Language Models Hallucinate)」中提出,用以解釋 AI 產生幻覺的原因。當一個知識點的單例率很高時,AI 在被問及相關問題時更容易產生錯誤或捏造資訊,因為它對這個知識點的理解和記憶不夠牢固。
單例率與 AI 幻覺的關聯
論文中指出,AI 的幻覺並非神秘現象,而是現行訓練與評估體制下的必然結果。AI 在「預訓練」階段會讀取大量的網路資料,此階段如果某些事實(尤其是稀有、孤立的「任意事實」)只出現過一次,即「單例率」很高,AI 就容易犯錯。這就像學生對於只在課本角落看過一次的冷門知識點,很容易記錯或張冠李戴一樣。因此,高單例率是導致 AI 產生幻覺的重要因素之一。
如何理解單例率在 AI 學習中的作用
可以將 AI 學習比喻為學生準備考試。如果某個知識點只在書中出現一次,學生可能對此不夠熟悉,考試時就容易出錯。同樣地,如果 AI 在訓練資料中只接觸到某個事實一次,它就難以準確掌握該事實,進而在回答問題時產生幻覺。因此,為了減少 AI 幻覺,訓練資料的多樣性和重複性非常重要,以確保 AI 對各種知識點都有充分的學習和理解。