LLM 的「幾何流形」理論,如何解釋模型產生幻覺的根本原因?
Answer
LLM 的「幾何流形」理論與幻覺成因
大型語言模型(LLM)是否僅是模仿人類語言的工具,還是通往通用人工智慧(AGI)的基石,一直是科技界熱議的話題。美國哥倫比亞大學教授 Vishal Misra 提出了一套「幾何流形」理論,有助於理解 LLM 的運作方式和產生幻覺的根本原因。
幾何流形:LLM 的「知識地圖」
Misra 認為,LLM 會將複雜的世界資訊壓縮成低維度的「幾何流形」,本質上是模型從大量訓練資料中學習到的「知識地圖」。LLM 沿著這張地圖推理的過程,是一種基於訓練資料的「貝氏推論」。當 LLM 產生內容時,就像在這張地圖上行走,一旦偏離了既有路徑,就會開始「產生幻覺」,自信地說出看似合理卻錯誤的內容。這與人類的推理方式相似,人類也會將複雜世界簡化為內心的認知模型,並在這個模型內進行思考。
「思維鏈」與地圖上的安全路徑
為了提高 LLM 輸出的準確性,需要理解「資訊熵」和「預測熵」的概念。Misra 舉例,提供越具體、資訊越豐富的上下文,或將任務分解得越細,就越能將 LLM 約束在其流形上的低熵路徑,從而產生更可預測、更準確的結果。「思維鏈」提示法正是基於此原理,將複雜的高熵問題轉化為模型熟悉的低熵小步驟,幫助模型在地圖上找到穩妥的前行路徑。
LLM 是優秀的探索者,但無法發現新大陸
Misra 認為,AGI 的能力是「創造新的流形」,即繪製全新的地圖,而不僅是在已知地圖上導航。LLM 的所有產出,都是其訓練資料的「歸納閉包」,即無法創造出地圖之外的全新知識點。Misra 以愛因斯坦為例,指出 LLM 無法透過遞迴式自我改進來產生真正的新知識,因為資訊從未離開過最初由訓練資料所劃定的地圖邊界。
AI 進展趨緩,單靠更多資料無法通往 AGI
Misra 認為,不斷投入更多資料和算力,無法讓 LLM 進化成 AGI。增加資料只會讓現有的「知識地圖」更平滑、更精細,但無法幫助模型發現一個全新的大陸。要達到 AGI,可能需要的是「架構上的躍進」,例如讓 AI 真正模擬人類思考,而不僅僅是語言處理。此外,Misra 認為鑽研 Prompt 稱不上是一種工程,因為目前的 AI 社群過於注重經驗主義,缺乏嚴謹的理論與模型支撐。