音声意味理解への応用を指向した非自己回帰型End-to-end音声認識 - LY Corporation R&D

Publications

CONFERENCE (DOMESTIC) 音声意味理解への応用を指向した非自己回帰型End-to-end音声認識

大町基, 藤田悠哉, 渡部晋治 (Carnegie Mellon University), Tianzi Wang (Johns Hopkins University)

日本音響学会　2021年秋季研究発表会 (音響学会)

September 07, 2021

筆者らは処理時間が短く高精度な音声意味理解システムの実現を目指し、Transformerを用いて発話内容に含まれる個々の単語の表記と素性を並べた単一の系列を出力する方式を提案した。しかし、Transformerは音声がleft-to-rightに生成されるという仮定に基づくため、推定したい系列の長さに比例して実行時間が長くなるという課題があった。本研究では非自己回帰型モデルのひとつである、Mask-CTCの枠組みを用いて単語の表記と素性を同時に推定する方式を提案する。Mask-CTCはleft-to-rightの仮定が不要なため、Transformerよりも高速な推論が可能となる。また、CTC (Connectionist temporal classification)に基づく非自己回帰モデルにmask-predictを適用することで、CTCよりも高い認識性能が実現できる。提案法における推定系列には複数種類のトークンが含まれる。そこで、各反復で更新するトークンを制限するmask-predictも検討した。日本語講演コーパスを用いた実験により、提案法はCTC よりも高い認識性能が実現でき、Transformerよりも低い実時間比（RTF）を達成できることを確認した。さらに、品詞推定、言い淀み・固有名詞抽出の音声意味理解のタスクでもCTCよりも良い性能が得られることを確認した。