音声品質と音響環境の潜在変数で条件付けたDenoising Trainingによるノイズロバスト音声変換 - LINEヤフーの研究開発

Publications

カンファレンス (国内) 音声品質と音響環境の潜在変数で条件付けたDenoising Trainingによるノイズロバスト音声変換

五十嵐琢斗 (東京大学), 齋藤佑樹 (東京大学), 関健太郎 (東京大学), 高道慎之介 (東京大学), 山本龍一, 橘健太郎, 猿渡洋 (東京大学)

電子情報通信学会/日本音響学会音声研究会 (IEICE/ASJ-SP)

2024.2.22

本稿では，ノイジーな入力音声に対し，その音声品質と音響環境を表現する潜在変数の条件付けを行うノイズロバストな音声変換を提案する．先行研究では，クリーン音声に雑音や残響を人工的に付加することで得た疑似ノイジー音声のデータからnoisy-to-cleanの音声変換を学習するdenoising trainingと呼ばれる手法により，既存のモデル構造に変更を加えることなく，ノイズロバストな音声変換を提案した．しかし，この手法は音声変換モデルが入力音声の多様な雑音や品質劣化を十分に学習できないため，推論時に未知ノイズで劣化した入力音声に対して，変換された音声の音韻や韻律が乱れる傾向にある．本研究では，入力音声の品質・雑音の多様性を解釈する機構を取り入れた音声変換を行うことを目的とし，denoising trainingの際に入力音声の音声品質および音響環境の潜在変数で条件付けたノイズロバストな音声変換の学習法を提案する．客観および主観評価により，提案手法により変換された音声の品質が従来手法と比較して向上することを示す．

Paper : 音声品質と音響環境の潜在変数で条件付けたDenoising Trainingによるノイズロバスト音声変換新しいタブまたはウィンドウで開く（外部サイト）