Publications

CONFERENCE (DOMESTIC) (招待講演)End-to-end 音声合成の研究を加速させるオープンソースツールキット ESPnet-TTS

林 知樹 (名古屋大学), 山本 龍一, 井上 勝喜 (岡山大学), 吉村 建慶 (岡山大学), 武田 一哉 (名古屋大学), 戸田 智基 (名古屋大学), 渡部 晋治 (Johns Hopkins University)

日本音響学会 2020年春季研究発表会 (ASJ 2020 spring)

March 16, 2020

深層学習技術の目覚ましい発展に伴い, End-to-End型音声合成システム (E2E-TTS) が注目を集めており,従来のパイプライン方式の音声合成システムを置き換えつつある. E2E-TTS は, 従来方式と比べ, 専門的な言語知識に基づく言語特徴量の抽出や, テキストと音声の時間的な対応関係を表すアライメント情報を必要としない. また, WaveNet や WaveRNN に代表されるニューラルボコーダの導入により, 人間の肉声と聞き間違うレベルの自然性を実現している. E2E-TTS は, 現在, 音声合成分野における最も重要なトピックの一つであり, 感情や細かい抑揚の制御を可能とする Controllable E2E-TTS など, さらなる技術の発展が期待されている.本稿では, E2E-TTS の研究のさらなる加速を目指し, 新たに開発したオープンソース E2E-TTS ツールキット ESPnet-TTS を紹介する.