中間層予測に音節と表記を用いる日本語音声認識 - LY Corporation R&D

Publications

CONFERENCE (DOMESTIC) 中間層予測に音節と表記を用いる日本語音声認識

藤田雄介, 小松達也, 木田祐介

日本音響学会 2022年秋季研究発表会 (ASJ 2022 autumn)

September 14, 2022

End-to-Endモデルの進化により音声認識の精度が向上したが、非頻出単語や日本語のような表意文字言語の認識は難しい。日本語は文字単位の語彙数が多く、同じ発音で異なる表記が存在し、多くの漢字が複数の発音を持つ。この複雑さに対応するための学習データは不足している。従来の方法では、音素や音節の補助損失関数を用いたマルチタスク学習が試みられていた。本稿では、低次と高次のターゲット間の相互作用を強化する新しいマルチタスク学習法を提案。この手法は、Self-conditioned CTCを基に、音節と文字の相互作用をモデル化する。実験の結果、提案手法は従来の方法よりも優れていることが確認された。

Speech Processing