Misra 教授提出的「幾何流形」理論,本質上是 LLM 的什麼?
Answer
Misra 教授的幾何流形理論:LLM 的本質解讀
哥倫比亞大學教授 Vishal Misra 提出的「幾何流形」理論,將大型語言模型(LLM)理解為一種將複雜世界資訊壓縮成低維度「知識地圖」的機制。這個地圖是模型從大量訓練資料中學習而來,LLM 在這張地圖上進行推理,本質上是一種基於訓練資料的貝氏推論。
幾何流形與 LLM 幻覺的關聯
Misra 認為,LLM 在生成內容時,如同在地圖上行走。當模型偏離既有路徑,就會開始「產生幻覺」,自信地輸出看似合理但實際上錯誤的資訊。這與人類的認知方式類似,人們也會將複雜的世界簡化為內心的認知模型,並在這個模型內進行思考。
如何提升 LLM 的準確性:降低資訊熵
為了提高 LLM 輸出的準確性,Misra 強調降低「資訊熵」的重要性。提供更具體、資訊更豐富的上下文,或將任務分解得更細,都能將 LLM 約束在其流形上的低熵路徑,產生更可預測、更準確的結果。「思維鏈」提示法正是基於此原理,將複雜問題轉化為模型熟悉的小步驟,幫助模型在地圖上找到穩妥的前行路徑。
LLM 無法創造新知識:歸納閉包的限制
Misra 認為,LLM 的所有產出都是其訓練資料的「歸納閉包」,無法創造地圖之外的全新知識點。LLM 無法透過遞迴式自我改進來產生真正的新知識,因為資訊始終局限於由訓練資料所劃定的地圖邊界內。單純投入更多資料和算力,無法讓 LLM 進化成 AGI,可能需要的是「架構上的躍進」,例如讓 AI 真正模擬人類思考,而不僅僅是語言處理。
Misra 的幾何流形理論,不僅闡明了 LLM 的運作機制,也對當前 AI 發展的瓶頸提出了深刻的見解。他提醒我們,要實現真正的通用人工智慧,需要超越現有的經驗主義方法,尋求更嚴謹的理論與模型支撐。