CTC を用いた音声認識のための中間層予測による条件づけ - LY Corporation R&D

Publications

CONFERENCE (DOMESTIC) CTC を用いた音声認識のための中間層予測による条件づけ

野崎樹文 (京都大学), 小松達也

日本音響学会 2021年秋季研究発表会 (ASJ 2021 autumn)

September 07, 2021

Connectionist Temporal Classification (CTC)による音声認識モデルは，非自己回帰的にトークンを並列に出力するため，自己回帰的に1 つずつトークンを出力するAttention ベースのEncoder-Decoder による音声認識モデルと比較して推論が高速というメリットがある。一方，CTC は出力トークン間の条件独立性を仮定しているため，自己回帰型のモデルと比較して認識精度が劣ることが多い。本研究では，CTC を用いた音声認識モデルの高速な推論速度を保ったまま認識精度を改善する手法を提案する。提案手法は，最終層に加えて中間層をCTC損失関数で学習し，中間層で出力されたトークンの事後確率分布を次の層の入力に加える。これにより，最終層の予測が中間層の予測に条件づけられ，CTCの出力の条件独立性の仮定の欠点を補うことを期待する。

Speech Processing