Publications

CONFERENCE (DOMESTIC) 拡散モデルを用いた意味領域分割のための擬似マスク生成における教師なしドメイン適応

大塚 雄也, 吉橋 亮太, 土井 賢治, 田中 智大

第27回 画像の認識・理解シンポジウム MIRU2024 (MIRU2024)

August 09, 2024

近年, 画像生成技術の研究が進展し, 生成画像を利用した画像認識の訓練技術に影響を与えている.特に意味領域分割においては, 拡散過程の画像と単語(token)のクロスアテンションマップから画像のどの辺りに注目しているかを取得できるため, それを応用して擬似マスクを抽出するアプローチが注目されている.これにより, 実画像とアノテーションを必要としない訓練が可能となる.しかし, 既存の研究では良好な成果を示しているものの, 適用範囲が生成モデルの学習データのドメインに限られるという課題がある.特定のドメインに特化させたいという課題については, 拡散モデルにアダプテーションモジュールを追加して, そのモジュールのみ学習するLoRAなどの手法により, 生成画像に特定のインスタンスを含めることができるようになっている.本研究では, この手法を取り入れ, 対象のドメインを拡張しつつ, 既存技術により生成される擬似マップの品質を落とさず生成できることを確認した.加えて, Cityscapesデータセットを用いた意味領域分割タスクにおいて, ドメイン適応前後でmIoUが4.7ポイント向上した.

PDF : 拡散モデルを用いた意味領域分割のための擬似マスク生成における教師なしドメイン適応