Constitutional AI におけるセーフティアラインメントの改善 - LY Corporation R&D

Publications

OTHERS (DOMESTIC) Constitutional AI におけるセーフティアラインメントの改善

綿岡晃輝, Thien Q. Tran, 前田若菜, 髙橋翼

言語処理学会第30回年次大会 (NLP2024)

March 04, 2024

大規模言語モデル(LLM)を人の倫理観に準拠させるセーフティアラインメントの多くは，人手による高コストなアノテーション作業を要する. これを緩和するため，LLM自身に出力文の批評と改訂を繰り返させることで，アラインメント用のデータセットを作成するConstitutional AI等の手法が提案されている. しかし，Constitutional AIによる批評と改訂を繰り返す過程では，文の自然さや倫理観の遵守の度合いが劣化してしまうことがある. そこで，批評と改訂の過程を評価し，得られた改訂の中から最も高品質な改訂を選定する戦略を導入する. 実験の結果，有害な回答が22%減少することを確認した.

Paper : Constitutional AI におけるセーフティアラインメントの改善 open into new tab or window (external link)