潜在変数モデルを用いたCTCによる非自己回帰型音声認識 - LINEヤフーの研究開発

Publications

カンファレンス (国内) 潜在変数モデルを用いたCTCによる非自己回帰型音声認識

藤田悠哉, 渡部晋治 (カーネギーメロン大学)

日本音響学会第150回(2023年秋季)研究発表会

2023.9.26

非自己回帰 (Non-autoregressive, NAR) モデルは, 自己回帰 (Autoregressive, AR) モデルに比べて一定の精度劣化を許容しつつ推論処理の高速化を図るものとして機械翻訳の研究分野にて提案され, 活発に研究が行われている. NAR モデルは End-to-End (E2E) 音声認識にも応用され, 一定の条件化では AR モデルに迫る精度を早い処理速度で実現している. 音声認識では, connectionist temporal classification (CTC) が NAR モデルとしてよく利用されている. 一方, 機械翻訳の分野では, 潜在変数モデルを利用した NAR モデルが提案され, 良好な結果が報告されている. 本稿では, CTC と潜在変数モデルを組み合わせた新しい音声認識手法を提案する. 音声認識に適したニューラルネットワーク(Neural Network, NN) の構造とその定式化を導入し, intermediate CTCなどを組み込むことで, TED-LIUM2 コーパスにおいて AR モデルより良い精度を実現した.

音声処理