何謂「審議對齊」技術?它如何訓練與校準AI模型?
Answer
什麼是「審議對齊」技術?
「審議對齊」(Deliberative Alignment)是一種先進的AI模型訓練與校準技術,旨在確保AI的回應與人類的意圖和規格相符。在AI時代,工程師的核心價值正從編寫程式碼轉向「結構化溝通」,即編寫能精準捕捉意圖的規格,其價值遠超程式碼本身。規格不僅是給人看的說明書,更能成為「可執行的程式碼」,透過審議對齊技術,直接訓練並校準AI模型。
如何訓練AI模型?
審議對齊技術的核心在於將書面規格轉換為可執行的程式碼,用於直接訓練與評估AI模型。OpenAI 正在透過這種技術來實踐此概念,其運作方式是將書面規格與一系列挑戰性的提示詞一同交給一個「評分模型」(grader model),由它來評估受測模型的回答是否符合規格中的意圖。這個評分模型會根據規格中的意圖,對AI模型的回應進行評分,從而指導AI模型進行調整和優化。
如何校準AI模型?
通過「審議對齊」技術,規格不僅用於對齊人類共識,更進化為可供機器執行的「動態程式碼」,用於直接訓練與評估AI模型。在傳統的AI開發中,提示詞(prompt)被視為重要的意圖表達,但往往在生成程式碼後被丟棄。審議對齊則強調保留和利用這些規格,將其與一系列挑戰性的提示詞結合,通過評分模型來評估AI模型的回答是否符合規格中的意圖,從而實現AI模型的校準。這種方法確保了AI模型的行為與人類的期望和意圖保持一致,提高了AI系統的可靠性和安全性。