ChatGPT-EDSS: ChatGPT由来のContext Word Embeddingから学習される共感的対話音声合成モデル - LY Corporation R&D

Publications

WORKSHOP (DOMESTIC) ChatGPT-EDSS: ChatGPT由来のContext Word Embeddingから学習される共感的対話音声合成モデル

齋藤佑樹 (東京大学), 高道慎之介 (東京大学), 飯森英治 (東京大学), 橘健太郎, 猿渡洋 (東京大学)

第137回MUS・第147回SLP合同研究発表会 (音学シンポジウム 2023)

June 23, 2023

本稿では，ChatGPT を活用して対話の文脈情報を自動的に抽出する共感的対話音声合成 (empathetic dialogue speech synthesis: EDSS) の手法である “ChatGPT-EDSS” を提案する．ChatGPT は，入力プロンプトの内容と意図を深く理解し，ユーザからの要求に対して適切に応答可能な最先端の AI チャットボットの 1 つである．我々は ChatGPT の文章読解力に着目し，対話相手の感情を考慮して共感的な音声を生成する EDSS タスクに ChatGPT を導入する．提案法である ChatGPT-EDSS では，まず ChatGPTに対話履歴のテキストをプロンプトとして与え，各話者の発話に対して意図，感情，発話スタイルを表現する 3 つの語（ChatGPT 文脈語）を回答させる．次に，得られた文脈語の word embedding で deep neural network (DNN) ベースの EDSS モデルを条件付けして学習し，ChatGPT 由来の文脈語で韻律を制御可能な音声合成を実現する．実験的評価の結果から，人手でアノテーションされた感情ラベルや，対話履歴から DNN で抽出された文脈情報で EDSS モデルを条件付けする従来法と同程度の合成音声品質を提案法が達成できることを示す．