テキストベースの大規模言語モデルを用いた音声事前学習モデルの評価 - LY Corporation R&D

Publications

CONFERENCE (DOMESTIC) テキストベースの大規模言語モデルを用いた音声事前学習モデルの評価

前角高史, 後藤啓太, Jinchuan Tian (カーネギーメロン大学), 篠原雄介, 渡部晋治 (カーネギーメロン大学)

日本音響学会 2026年春季研究発表会 (ASJ 2026 spring)

March 17, 2026

近年，自己教師あり学習に基づく音声表現学習モデルは，多様な下流タスクで高い性能を示している。一方で，SSLモデルの性能比較には多タスクでの追加学習や評価が必要となることが多く，計算資源・時間の観点から軽量な評価手法が求められている。本件では，テキストベース大規模言語モデル（LLM）を用いて，SSL音声モデルを追加学習なしに評価する新手法を提案する。具体的には，音声特徴量をk-meansにより離散トークン列へ変換し，そのトークン列をLLMに入力して対数尤度（MLL）を算出する。MLLはラベル不要・パラメータ不要・学習不要で計算でき，SSLモデルが生成するトークン列の規則性・予測可能性を指標化することで，モデル間比較の代理指標として利用する。英語の読み上げ音声を用いて音声認識のWERとMLLの対応を確認した結果，MLLはLLMの種類やプロンプトに依らずWERと強く相関し，SSLモデル間の性能順位付けが可能であることを確認した。

Speech Processing