Publications

カンファレンス (国内) データの分布マッチングによる End-to-End 音声認識モデルのドメイン適応

篠原 雄介, 渡部 晋治 (CMU)

日本音響学会 第150回(2023年秋季)研究発表会

2023.9.26

ターゲットドメインのテキストのみが与えられた時に,音声認識モデルをドメイン適応する問題について検討する.この問題に対して,所与のテキストから構築した言語モデルを統合する shallow fusion がよく用いられる.しかし,shallow fusion はモデルのサイズ及び推論時の演算量を増加させるため,実用的なアプリケーション,特にオンデバイスでの利用が難しかった.そこで本稿では,データの分布マッチングによるドメイン適応法を提案する.具体的には,ターゲットドメインのデータ分布と一致するように,既存のマルチドメイン学習データからサブセットを選択して,このサブセットでモデルを fine-tune する.この時,劣モジュラ最適化によるアルゴリズムを用いてサブセットを選択する.また選択されるデータの偏りを防ぐため独自の拡張を導入する.提案法によりターゲットドメインで頻出する単語の認識精度が改善すると期待される.LibriSpeech コーパスで提案法の有効性を確認したので報告する.