Publications

その他 (国内) 言語モデルの倫理的検査のための効率的なテストケースの生成

綿岡 晃輝, 野崎 雄斗 (東京都大学), 馬越 雅人, 髙橋 翼

コンピュータセキュリティシンポジウム2022 (CSS 2022)

2022.10.24

言語モデルは様々な自然言語処理タスクをこなす汎用性を持つ一方で, 有害な発言やプライバシー情報を生成してしまう等の倫理的問題を引き起こす危険性がある. 本研究では, 言語モデルの倫理的側面についてデプロイ前に検査することを考える. 既存研究では, 検査対象の言語モデルに対して非倫理的な出力を誘発させる入力文 (以下, テストケース) を用いた検査が提案されている. この手法では, 発現しづらい希少なテストケースを十分に用意することが困難である点が課題である. そこで, 本研究では, 希少なテストケースを効率よく生成する手法Iterative Few-shot Generationを提案する. 評価実験では, 英語と日本語の言語モデルに対して攻撃的発言とプライバシー情報生成の誘発の効率性を評価し, 提案手法は既存手法よりもユニークなテストケースを効率よく生成できることを確認した.

Paper : 言語モデルの倫理的検査のための効率的なテストケースの生成新しいタブまたはウィンドウで開く (外部サイト)