マルチモーダル共感的対話音声合成に向けたコーパスの構築 - LY Corporation R&D

Publications

CONFERENCE (DOMESTIC) マルチモーダル共感的対話音声合成に向けたコーパスの構築

齋藤佑樹 (東京大学), 陳晋升 (東京大学), 楊棟 (東京大学), 丹治尚子 (東京大学), 土井啓成, 白旗悠真, 朴炳宣, 橘健太郎, 猿渡洋 (東京大学)

日本音響学会 2025年春季研究発表会 (ASJ 2025 spring)

March 17, 2025

本稿では，我々が新たに構築したマルチモーダル共感的対話音声コーパス“CAVIARES” (Corpus including Audio-Visual, Instructed, Affective Recordings of Empathetic Speech) を紹介する． CAVIARES は，日本語を母語とする女性話者1 名による，合計約9.5 時間の模擬対話音声と読み上げ音声により構成される．音声はMediaPipe のFace Mesh特徴点と同期されており，セグメントごとの感情ラベルが付与されている．CAVIARES は研究用途に限り公開予定であり，本稿ではコーパスの構築法と分析結果を報告する．