Publications

カンファレンス (国内) トピックモデルを用いた教師なし学習によるHuBERTの意味表現向上

前角 高史, Jiatong Shi (カーネギーメロン大学), Xuankai Chang (カーネギーメロン大学), 藤田 悠哉, 渡部 晋治 (カーネギーメロン大学)

日本音響学会 2024年秋季研究発表会 (ASJ 2024 autumn)

2024.9.4

近年,音声の自己教師あり学習モデルの研究が活発に行われている.特にHuBERTやWavLMは,疑似ラベル系列を介したマスク予測による学習基準と,自己注意ネットワークによるモデリングの両方において意味的な文脈情報を学習しており,音声認識や感情認識,意図理解など,様々なタスクにおいてその有効性が確認されている. また,我々の先行研究では,HuBERTの疑似ラベル系列を入力として教師なしクラスタリング手法であるトピックモデルを適用し,会話音声のデータのみを用いて会話のテーマがクラスタリングできることを示した.この研究から,HuBERTのマスク予測タスクは主にマスクされた領域周辺の局所的な文脈情報に着目しているが,事前学習時にもトピック情報を用いることによって,より広範な文脈情報について捕捉できる可能性に我々は着目した.そこで本論文では,HuBERTの意味表現を強化する新しいアプローチであるHuBERTopicを提案する. まず,トピックモデルを疑似ラベル系列に適用し,各発話に対応するトピックラベルを生成する.次に,HuBERTのTransformerエンコーダの入力にBERTで用いられるCLS トークンに対応するベクトルを追加し,トピックを分類する補助タスクを加える.これにより,教師なし学習の枠組みでHuBERTが大域的な意味情報を捕捉することを促し,下流タスクの性能向上を図る.