「資訊熵」和「預測熵」在提示工程中扮演什麼樣的角色？

Answer

資訊熵與預測熵在提示工程中的角色

在提示工程中，「資訊熵」和「預測熵」扮演著關鍵角色，它們直接影響大型語言模型（LLM）的回答準確性。資訊熵指的是提示中所包含的資訊量，而預測熵指的是模型輸出的不確定性。這兩個概念幫助我們理解如何透過精巧設計提示來引導 LLM 產生更準確和可預測的結果。

資訊熵對預測熵的影響

低資訊熵的提示往往會導致高預測熵，因為模型在缺乏足夠上下文的情況下，有很多可能的回答。反之，高資訊熵的提示則能有效降低預測熵，讓模型可以根據提供的具體資訊縮小答案範圍。舉例來說，如果提示只是簡單的「我要出去吃晚餐」，LLM 可能會產生各種不同的回答，因為它不清楚具體的用餐地點、時間或對象。但如果提示更具體，例如「我要和 Martin Casado 共進晚餐」，模型就能更精確地提供相關資訊。

「思維鏈」提示法與資訊熵的關係

「思維鏈」（Chain of Thought）提示法是一種有效降低資訊熵的策略。這種方法將複雜的高熵問題分解為一系列模型更容易處理的低熵小步驟。以一個複雜的數學問題為例，直接要求 LLM 給出答案可能導致錯誤，但如果將問題分解為筆算步驟，每一步都是低熵且明確的任務，模型就能更準確地完成計算。這種方法就像引導模型沿著一條鋪設完善的路徑前進，減少其在地圖上迷失方向的機會，從而提高回答的準確率。因此，提供更具體、資訊更豐富的上下文，或將任務分解得更細，都能將 LLM 約束在低熵路徑上，產生更可預測、更準確的回答。

觀看原始文章