Publications

ワークショップ (国内) モデルマージによる複数ドメインに対応した単一密検索モデルの構築

佐々木 泰河 (兵庫県立大), 山本 岳洋 (兵庫県立大), 大島 裕明 (兵庫県立大), 藤田 澄男

WebDB夏のワークショップ2025 情報処理学会 第181回 データベースとデータサイエンス研究会 (SIG-DBS) 情報処理学会 第160回 情報基礎とアクセス技術研究会 (SIG-IFAT) 電子情報通信学会 データ工学研究会 (DE) 合同研究会 (WebDB Workshop 2025)

2025.9.9

本研究の目的は,複数ドメインの文書検索に高い性能を示す単一の密検索モデルの構築である.この ようなモデルの構築方法として,各ドメインのデータを結合したデータを用いてモデルをファインチュー ニングする方法があげられる.しかし,この方法では,新たなドメインを追加するたびに全ドメインを含 むデータでモデルを再学習しなおす必要があり,計算コストが高いという課題がある.そこで本研究では, 各ドメインで個別にファインチューニングされたモデルをモデルマージにより統合することで,再学習す ることなく単一のモデルを構築することを提案する.モデルマージは,複数のモデルの強みを統合し,計 算コストを抑えつつ多様な能力を備えた新たなモデルを構築する手法である.提案手法の有効性を検証す るために、対応すべきドメインが段階的に増加していくシナリオを想定した実験を行った。具体的には、 ベースモデルを5 つのテストコレクションに特化して個別にファインチューニングしたモデルを構築し、 マージに含める特化モデルの数を2 から5 に増やしながら、各テストコレクションでの検索性能を評価し た。その結果、マージに含める特化モデルを増やすことで、ベースモデルを上回る性能を発揮するテスト コレクションが段階的に増えていくことが確認された。また、対象ドメインのデータを結合してファイン チューニングしたモデルと比較しても、マージモデルは学習データ分布の偏りによる特定ドメインへの過 学習やタスク競合を抑制できる点において優れていることが示された。

Paper : モデルマージによる複数ドメインに対応した単一密検索モデルの構築新しいタブまたはウィンドウで開く (外部サイト)