ドメイン適応と相互情報量最小化によるdisentangled な話者・言語表現に基づいたクロスリンガル音声合成 - LINEヤフーの研究開発

Publications

カンファレンス (国内) ドメイン適応と相互情報量最小化によるdisentangled な話者・言語表現に基づいたクロスリンガル音声合成

辛徳泰 (東京都大学), 小松達也, 高道慎之介 (東京都大学), 猿渡洋 (東京都大学)

日本音響学会 2021年春季研究発表会 (ASJ 2021 spring)

2021.3.10

This paper introduces a method to extract disentangled embeddings for speaker and language using mutual information minimization and domain adaptation. While mutual information minimization has been shown to effectively extract disentangled representations, solely relying on domain adaptation doesn't fully prevent language embeddings from encoding speaker information. The proposed method ensures that the language embedding contains minimal speaker information, so changing the language embedding doesn't affect the speaker's identity in the speech. Experimental results show that this approach enhances the naturalness and speaker similarity in cross-lingual TTS synthesis.

音声処理