Publications
ワークショップ (国内) 音素エントロピーを利用した背景発話に頑健なDNNに基づく音声区間検出
情報処理学会 第112回音声言語情報処理研究発表会
2016.7.21
DNNに基づく音声区間検出に音素エントロピーによる棄却を追加することで背景発話の誤検出を抑制する方法を提案する. 我々が運用している音声認識サービスでは, DNNに基づく音声区間検出を採用している. 音声区間検出の誤りを観察したところ,そのほとんどがTVまたはラジオや周囲の人の会話に由来する背景発話の誤検出だった. 本稿ではそのような誤検出を抑制するために,DNN音響モデルの音素事後確率のエントロピーに基づく信頼度スコアを導入する. 背景発話はユーザーが音声認識サービスの利用を意図して行う発話よりもマイクロフォンとの距離が遠いことが多く,ノイズや残響の影響を受けやすい. 従って背景発話音声は音素事後確率のエントロピーが大きな値を持つと考えられる. そこで,DNNに基づく音声区間検出により音声と判定されたフレームのうち,音素事後確率のエントロピーが閾値以上のフレームを棄却し,背景発話による誤検出を抑制する. 実験により,音声認識サービスの文誤り率が10%以上削減できることを確認した.
Paper : 音素エントロピーを利用した背景発話に頑健なDNNに基づく音声区間検出 (外部サイト)