中間層予測に対するノイズ付与による CTC 音声認識の頑健性向上 - LY Corporation R&D

Publications

CONFERENCE (DOMESTIC) 中間層予測に対するノイズ付与による CTC 音声認識の頑健性向上

中込優, 小松達也, 藤田雄介, 市村収太, 木田祐介

日本音響学会 2022年秋季研究発表会 (ASJ 2022 autumn)

September 14, 2022

非自己回帰型音声認識の先進的な手法であるSelf-conditioned CTCを基盤に、中間層の予測にノイズを意図的に追加することでモデルの頑健性を向上させる新しい学習法を提案する。非自己回帰型モデルは、Iterative refinement decodingとIntermediate predictionの2つのカテゴリに分けられ、両方ともCTCの利点を維持しながら高い認識精度を達成している。本研究では、Self-conditioned CTCの中間層にノイズを追加することで、Iterative refinement decodingの特性を取り入れる。このノイズは、トークンの削除、挿入、置換などの誤りを模倣して作成され、後続のエンコーダ層で修正される。このアプローチにより、エンコーダ内だけでIterative refinement decodingの効果を実現することが期待される。さらに、中間層の特徴空間でのマスク処理も提案されている。

Speech Processing