Visal Misra 教授提出的「幾何流形」理論，核心概念為何？

Answer

Visal Misra 教授「幾何流形」理論的核心概念

Visal Misra 教授提出的「幾何流形」理論，將大型語言模型（LLM）視為一種將複雜世界資訊壓縮成低維度「知識地圖」的機制。這個「知識地圖」是 LLM 從海量訓練資料中學習得來的，而 LLM 在這張地圖上進行推理，本質上是一種基於訓練資料的貝氏推論。

幾何流形與 LLM 幻覺

Misra 教授認為，LLM 在生成內容時，如同在地圖上行走。當模型偏離既有路徑，就會開始產生「幻覺」，自信地輸出看似合理但實際上是錯誤的資訊。這與人類的認知方式類似，人們也會將複雜的世界簡化為內心的認知模型，並在這個模型內進行思考和判斷。

提升 LLM 準確性的方法：降低資訊熵

為了提高 LLM 輸出的準確性，Misra 教授強調降低「資訊熵」的重要性。透過提供更具體、資訊更豐富的上下文，或將任務分解得更細，都能將 LLM 約束在其流形上的低熵路徑，從而產生更可預測、更準確的結果。「思維鏈」提示法正是基於這個原理，將複雜問題轉化為模型熟悉的小步驟，幫助模型在地圖上找到穩妥的前行路徑。

LLM 無法創造新知識的限制

Misra 教授指出，LLM 的所有產出都是其訓練資料的「歸納閉包」，無法創造地圖之外的全新知識點。LLM 無法透過遞迴式自我改進來產生真正的新知識，因為資訊始終局限於訓練資料所劃定的地圖邊界內。因此，單純投入更多資料和算力，無法讓 LLM 進化成通用人工智慧（AGI），可能需要的是「架構上的躍進」，例如讓 AI 真正模擬人類的思考模式，而不僅僅是語言處理。

觀看原始文章