Publications
カンファレンス (国内) End-to-end 音声認識器の中間層への言語知識転移
Michael Hentschel (WORKS MOBILE JAPAN), 西川 勇太 (奈良先端科学技術大学院大学), 小松 達也, 藤田 雄介
日本音響学会 2023年秋季研究発表会 (ASJ 2023 autumn)
2023.9.26
本研究は、CTC ASRモデルのエンコーダを改善するために外部のLMを用いることを目的としている。CTC ASRは自己回帰モデルと比べ、推論速度が高速である。提案された手法では、最終エンコーダ層だけでなく中間のAEDも利用し、これらの補助AEDはBERTから得られるソフトラベルを蒸留目的に使用する。中間損失を使用することで、エンコーダの深い層にも影響が及ぶことが期待される。CTC ASRモデルにおけるAEDを利用したKDの有効性は従来から知られていたが、本研究では中間AEDを用いたKDの利点を初めて明らかにした。実験ではLibriSpeechデータセットを使用し、中間損失関数を介したモデルはCTCデコード精度が向上した。最終的に、提案法はベースラインに比べWERで25%以上、従来のKDに比べ4%以上の改善を達成している。