End-to-end 音声認識器の中間層への言語知識転移 - LINEヤフーの研究開発

Publications

カンファレンス (国内) End-to-end 音声認識器の中間層への言語知識転移

Michael Hentschel (WORKS MOBILE JAPAN), 西川勇太 (奈良先端科学技術大学院大学), 小松達也, 藤田雄介

日本音響学会 2023年秋季研究発表会 (ASJ 2023 autumn)

2023.9.26

本研究は、CTC ASRモデルのエンコーダを改善するために外部のLMを用いることを目的としている。CTC ASRは自己回帰モデルと比べ、推論速度が高速である。提案された手法では、最終エンコーダ層だけでなく中間のAEDも利用し、これらの補助AEDはBERTから得られるソフトラベルを蒸留目的に使用する。中間損失を使用することで、エンコーダの深い層にも影響が及ぶことが期待される。CTC ASRモデルにおけるAEDを利用したKDの有効性は従来から知られていたが、本研究では中間AEDを用いたKDの利点を初めて明らかにした。実験ではLibriSpeechデータセットを使用し、中間損失関数を介したモデルはCTCデコード精度が向上した。最終的に、提案法はベースラインに比べWERで25%以上、従来のKDに比べ4%以上の改善を達成している。

音声処理