Publications

カンファレンス (国内) 中間層予測にビームサーチを用いた新しい CTC 推論

小松 達也, 藤田 雄介, Lee Jaesong (NAVER), Lee Lukas (NAVER), 渡部 晋治 (Carnegie Mellon University), 木田 祐介

日本音響学会 2022年秋季研究発表会 (ASJ 2022 autumn)

2022.9.14

本稿は、非自己回帰型音声認識において強力な性能を示している Self-conditioned CTC をベースとして、中間層予測にビームサーチを用いた新しい CTC 推論を提案する。Self-conditioned CTC は音響エンコーダの中間層が出力する特徴系列に対して CTC 推論を行い、得られた中間層予測を次層の音響エンコーダの入力に加算することで、中間層予測に条件付けられたエンコードおよび推論を行う手法である。提案手法は、中間層における推論で外部言語モデルを用いたビームサーチを用い、ビームサーチを施された「優れた中間層予測」を次層の音響エンコーダの入力に加算する。音響エンコーダに外部言語モデルの情報を取り入れることが可能となり、最終層における推論の改善が期待できる。