「思維鏈」（Chain of Thought）提示法為何有效？其背後的資訊熵與預測熵原理是什麼？

Answer

「思維鏈」提示法之有效性：幾何流形、資訊熵與預測熵

「思維鏈」（Chain of Thought, CoT）提示法之所以有效，核心在於降低大型語言模型（LLM）在生成答案時的不確定性。LLM 的「思考」模式可視為在由訓練資料構建的「知識地圖」（幾何流形）上行走。這個地圖是模型從海量資料中學習而來的，CoT 的關鍵就在於引導模型沿著這張地圖上清晰、安全的「路徑」前進，以減少「幻覺」的產生。

資訊熵與預測熵：CoT 的運作原理

CoT 提示法利用了資訊熵與預測熵之間的關係。資訊熵指的是提示中所包含的資訊量，而預測熵則是指模型輸出的不確定性。高資訊熵的提示（例如提供詳細的背景資訊或情境）有助於降低預測熵，使模型更容易產生準確的結果。反之，低資訊熵的提示可能導致模型輸出多樣且難以預測。以數學計算為例，直接要求 LLM 計算複雜算式會導致高預測熵，但若將問題拆解為多個步驟，每一步驟都是低熵任務，模型就能更準確地得出答案。

CoT 的啟示：提供具體上下文與拆解任務

CoT 提示法的實用價值在於，它提醒我們在使用 LLM 時，應盡可能提供具體的上下文資訊，或將複雜任務分解為更小的、模型更熟悉的步驟。這樣做可以有效地約束 LLM 在其「知識地圖」上的路徑，使其能夠在低熵的狀態下運行，從而提高輸出結果的可預測性與準確性。換言之，越清晰的指令，越能引導 LLM 走向正確的答案，減少其「胡說八道」的可能性。

觀看原始文章