ニューラルオーディオコーデック特徴量を用いた音声から話者特有の表情予測モデルの構築及び分析 - LY Corporation R&D

Publications

CONFERENCE (DOMESTIC) ニューラルオーディオコーデック特徴量を用いた音声から話者特有の表情予測モデルの構築及び分析

朴浚鎔 (東京大学), 陳晋升 (東京大学), 土井啓成, 朴炳宣, 白旗悠真, 橘健太郎, 楊棟 (東京大学), 齋藤佑樹 (東京大学), 猿渡洋 (東京大学)

日本音響学会 2026年春季研究発表会 (ASJ 2026 spring)

March 19, 2026

本研究では、音声から話者特有の顔面運動をBlend-Shape 表現として予測するモデルを構築し、入力音声表現の構造が予測性能に与える影響を体系的に分析する。特に、自己教師あり学習（Self-Supervised Learning; SSL）と、ニューラルオーディオコーデック（Neural Audio Codec; NAC）からの音声表現を比較対象とし、それぞれが話者固有の表情運動をどのように符号化しているかを検証する。さらに、NAC 特徴に対して音響的詳細度を段階的に制御することで、表情予測に必要な情報粒度についても分析を行う。