CTC ベース音声認識モデルにおける中間層ロスと条件付けが与える影響の考察 - LY Corporation R&D

Publications

CONFERENCE (DOMESTIC) CTC ベース音声認識モデルにおける中間層ロスと条件付けが与える影響の考察

市村収太, 中込優, 藤田雄介, 小松達也, 木田祐介

日本音響学会 2022年秋季研究発表会 (ASJ 2022 autumn)

September 14, 2022

本研究では、日本語の音声認識の精度を向上させるために、非自己回帰型のASRモデルであるSelf-Conditioned CTCの構造を詳細に検討する。このモデルは、中間層でのCTC予測系列を条件として使用することで、トークン間の関係を考慮した推論を行い、CTCの条件付き独立性の制約を緩和する。実験では、異なるコンディショニングの位置や回数でモデルを学習し、従来のCTCモデルとの性能を比較する。さらに、外部の言語モデルを使用したビームサーチデコードを実施し、Self-Conditioned CTCが持つ言語情報を考察する。最終的に、Corpus of Spontaneous Japanese(CSJ)評価セットでの認識性能が、既存の最高性能を持つConformer-Transducerを超えることを確認する。

Speech Processing