Publications
カンファレンス (国内) 挿入操作に基づく End-to-End モデルによる音声認識と音声区間検出
藤田 悠哉, 渡部 晋治 (Johns Hopkins Univ.), 大町 基
日本音響学会2021年春季研究発表会
2021.3.10
音声区間検出と非自己回帰Transformer (Non-autoregressive Transformer, NAT) による非自己回帰的なデコード処理を単一のモデルで実現する手法を提案する。NATを用いた音声認識手法はいくつか提案されているが, 認識精度の観点から, 挿入操作に基づくモデルを利用する。この手法では, 挿入操作に基づくモデルとCTC (Connectionist Temporal Classification) が結合学習されることから, 因果的な自己注意 (Self- Attention) を導入することで, そのCTC部分を用いて音声区間検出を行うことを提案する。実験により, 提案手法は音声区間検出と挿入操作による非自己回帰的なデコード処理を1つのモデルで実現でき, CTCよりも高い精度を達成した。