「提示詞重複」技術在不增加輸出長度前提下，如何顯著優化跨模型的效能表現？

提示詞重複技術：低成本優化跨模型效能的策略

Google Research 團隊提出了一項名為「提示詞重複」的技術，該技術通過簡單地重複輸入指令，在不增加輸出長度的前提下，顯著優化跨模型的效能。這項技術的核心在於彌補因果語言模型（Causal LLMs）注意力機制的缺陷，為企業級 AI 部署提供了一條高性價比的升級路徑。

因果語言模型的單向注意力瓶頸

因果語言模型（Causal Language Model）是目前主流的 LLM 架構，其底層邏輯存在一個物理限制：因果性遮罩（Causal Masking）。在模型處理序列的過程中，第 N 個 Token 只能觀察到第 1 至 N-1 個 Token，無法預見「未來的資訊」。這導致模型在處理提示詞時，無法同時考慮到提示詞中所有 Token 的關聯性，影響了模型對問題的理解和回答的準確性。

如何破解單向注意力瓶頸

提示詞重複技術通過將原本的輸入「<提示詞>」轉換為「<提示詞><提示詞>」，使模型在讀取第二遍提示詞時，能夠將第一遍中未讀到的資訊視為「過去」的歷史資訊。這樣一來，提示詞中的每一個 Token 都能夠「注意到」提示詞中的其他所有 Token，從而模擬出雙向注意力（Bidirectional Attention）的效果，提升模型效能。

適用情境與注意事項

這項技術在多項基準測試中取得了顯著的成果，尤其適用於以下兩種情境：

不要求模型推論時：當應用場景不需要模型進行逐步思考（Chain of Thought, CoT）時，提示詞重複的效果最好。
長文本中的精確檢索與定位：在需要模型從長文本中找出特定資訊的任務中，提示詞重複能帶來顯著的增益，例如在長串名單中找出特定位置的名字。

然而，在以下兩種特定情境中，此方法可能無效：

已經啟用「推論模式」或思維鏈 (CoT) 時：當模型進行推理時，會在輸出的過程中自我重複提示詞的關鍵部分，因此在輸入端手動重複就顯得多餘。
提示詞已經「極度」過長：在極端情況下，若提示詞接近模型的 Context Window 上限，再重複一次可能會導致超出長度限制而無法執行。

「提示詞重複」技術在不增加輸出長度前提下，如何顯著優化跨模型的效能表現？ | 數位時代

提示詞重複技術：低成本優化跨模型效能的策略

因果語言模型的單向注意力瓶頸

如何破解單向注意力瓶頸

適用情境與注意事項