Publications

その他 (国内) 対話モデルに対する敵対的プロンプトの効率的な最適化

矢野 一樹 (東北大学), 綿岡 晃輝, Thien Q. Tran, 髙橋 翼, Seng Pei Liew, 鈴木 潤 (東北大学/理化学研究所)

言語処理学会第30回年次大会 (NLP2024)

2024.3.4

言語モデルの不適切な出力を回避するためには, 敵対的プロンプトを用いたストレステストにより, 潜在的なリスクを洗い出すことが重要である. 既存の手法では,プロンプトのトークン選択を繰り返すことで攻撃成功に近づくよう最適化を行う. そのため,一つのプロンプトの生成に時間を要し,多様なリスクを網羅するストレステストの実施には膨大な時間を要する. この課題を解決するため, プロンプト最適化におけるトークン選択の戦略を改善する手法を提案する. 実験により,提案手法は既存手法より少ないステップで攻撃を成功できることを示す. 加えて,トークン選択における勾配と損失を分析し,提案手法が採用する戦略の優位性を示す.

Paper : 対話モデルに対する敵対的プロンプトの効率的な最適化新しいタブまたはウィンドウで開く (外部サイト)