Publications
カンファレンス (国内) End-to-End 音声認識を用いた音声合成の半教師あり話者適応
井上 勝喜 (岡山大学), 原 直 (岡山大学), 阿部 匡伸 (岡山大学), 林 知樹 (名古屋大学), 山本 龍一, 渡部 晋治 (Johns Hopkins University)
日本音響学会 2020年春季研究発表会 (ASJ 2020 spring)
2020.3.16
テキスト音声合成(TTS)は入力テキストから音声を生成する技術で、End-to-End TTSが近年研究されている。しかし、End-to-End TTSシステムの構築には大量の音声とテキストのペアデータが必要で、高いコストがかかる。その解決策として、少量の音声データを用いた話者適応が提案されているが、対応したテキストデータの準備がボトルネックとなっている。本稿では、非ペア音声データを用いた話者適応を提案し、End-to-End automatic speech recognition(ASR)システムを使用してテキストデータを生成し、事前学習したTTSモデルをfine-tuningする方法を示す。これにより、高速な学習と高性能な結果が得られ、話者適応が単純なパイプラインで実現できることが示された。