「提示詞重複」技術在不增加輸出長度前提下,如何顯著優化跨模型的效能表現? | 數位時代

提示詞重複技術:低成本優化跨模型效能的策略

Google Research 團隊提出了一項名為「提示詞重複」的技術,該技術通過簡單地重複輸入指令,在不增加輸出長度的前提下,顯著優化跨模型的效能。這項技術的核心在於彌補因果語言模型(Causal LLMs)注意力機制的缺陷,為企業級 AI 部署提供了一條高性價比的升級路徑。

因果語言模型的單向注意力瓶頸

因果語言模型(Causal Language Model)是目前主流的 LLM 架構,其底層邏輯存在一個物理限制:因果性遮罩(Causal Masking)。在模型處理序列的過程中,第 N 個 Token 只能觀察到第 1 至 N-1 個 Token,無法預見「未來的資訊」。這導致模型在處理提示詞時,無法同時考慮到提示詞中所有 Token 的關聯性,影響了模型對問題的理解和回答的準確性。

如何破解單向注意力瓶頸

提示詞重複技術通過將原本的輸入「<提示詞>」轉換為「<提示詞><提示詞>」,使模型在讀取第二遍提示詞時,能夠將第一遍中未讀到的資訊視為「過去」的歷史資訊。這樣一來,提示詞中的每一個 Token 都能夠「注意到」提示詞中的其他所有 Token,從而模擬出雙向注意力(Bidirectional Attention)的效果,提升模型效能。

適用情境與注意事項

這項技術在多項基準測試中取得了顯著的成果,尤其適用於以下兩種情境:

  1. 不要求模型推論時:當應用場景不需要模型進行逐步思考(Chain of Thought, CoT)時,提示詞重複的效果最好。
  2. 長文本中的精確檢索與定位:在需要模型從長文本中找出特定資訊的任務中,提示詞重複能帶來顯著的增益,例如在長串名單中找出特定位置的名字。

然而,在以下兩種特定情境中,此方法可能無效:

  1. 已經啟用「推論模式」或思維鏈 (CoT) 時:當模型進行推理時,會在輸出的過程中自我重複提示詞的關鍵部分,因此在輸入端手動重複就顯得多餘。
  2. 提示詞已經「極度」過長:在極端情況下,若提示詞接近模型的 Context Window 上限,再重複一次可能會導致超出長度限制而無法執行。

This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容