Attention モデルのTeacher-Forcing を用いた長時間音声とテキストの自動アライメント - LINEヤフーの研究開発

Publications

カンファレンス (国内) Attention モデルのTeacher-Forcing を用いた長時間音声とテキストの自動アライメント

木田祐介, 小松達也, 戸上真人

日本音響学会 2021年春季研究発表会 (ASJ 2021 spring)

2021.3.10

End-to-End音声認識は、音声から直接表記を予測するニューラルネットワーク技術で、形態素単位の言語モデルや発音辞書を必要とせず、音声と表記のペアのみでシステムを構築できる。しかし、この手法は従来の音声認識システムよりも多くの学習データを必要とする。音声の書き起こしは高コストであるため、既存の音声資源、例えばテレビ放送の字幕や会議の議事録など、人手で書き起こされたデータを活用する研究が進められている。しかし、これらの音声資源の書き起こしは、実際の音声区間と必ずしも一致していない。そこで、モデル学習に利用するために、音声とテキストを発話単位で対応付けるアライメントを検討する。

音声処理