End-to-End 音声認識を用いた音声合成の半教師あり話者適応 - LY Corporation R&D

Publications

CONFERENCE (DOMESTIC) End-to-End 音声認識を用いた音声合成の半教師あり話者適応

井上勝喜 (岡山大学), 原直 (岡山大学), 阿部匡伸 (岡山大学), 林知樹 (名古屋大学), 山本龍一, 渡部晋治 (Johns Hopkins University)

日本音響学会 2020年春季研究発表会 (ASJ 2020 spring)

March 16, 2020

テキスト音声合成（TTS）は入力テキストから音声を生成する技術で、End-to-End TTSが近年研究されている。しかし、End-to-End TTSシステムの構築には大量の音声とテキストのペアデータが必要で、高いコストがかかる。その解決策として、少量の音声データを用いた話者適応が提案されているが、対応したテキストデータの準備がボトルネックとなっている。本稿では、非ペア音声データを用いた話者適応を提案し、End-to-End automatic speech recognition（ASR）システムを使用してテキストデータを生成し、事前学習したTTSモデルをfine-tuningする方法を示す。これにより、高速な学習と高性能な結果が得られ、話者適応が単純なパイプラインで実現できることが示された。

Speech Processing