何謂「審議對齊」技術？它如何訓練與校準AI模型？

Answer

什麼是「審議對齊」技術？

「審議對齊」（Deliberative Alignment）是一種先進的AI模型訓練與校準技術，旨在確保AI的回應與人類的意圖和規格相符。在AI時代，工程師的核心價值正從編寫程式碼轉向「結構化溝通」，即編寫能精準捕捉意圖的規格，其價值遠超程式碼本身。規格不僅是給人看的說明書，更能成為「可執行的程式碼」，透過審議對齊技術，直接訓練並校準AI模型。

如何訓練AI模型？

審議對齊技術的核心在於將書面規格轉換為可執行的程式碼，用於直接訓練與評估AI模型。OpenAI 正在透過這種技術來實踐此概念，其運作方式是將書面規格與一系列挑戰性的提示詞一同交給一個「評分模型」（grader model），由它來評估受測模型的回答是否符合規格中的意圖。這個評分模型會根據規格中的意圖，對AI模型的回應進行評分，從而指導AI模型進行調整和優化。

如何校準AI模型？

通過「審議對齊」技術，規格不僅用於對齊人類共識，更進化為可供機器執行的「動態程式碼」，用於直接訓練與評估AI模型。在傳統的AI開發中，提示詞（prompt）被視為重要的意圖表達，但往往在生成程式碼後被丟棄。審議對齊則強調保留和利用這些規格，將其與一系列挑戰性的提示詞結合，通過評分模型來評估AI模型的回答是否符合規格中的意圖，從而實現AI模型的校準。這種方法確保了AI模型的行為與人類的期望和意圖保持一致，提高了AI系統的可靠性和安全性。

觀看原始文章