Publications
カンファレンス (国内) Transformerを用いた音声認識モデルにおける事前分布を用いた注意重みの平滑化の検討
前角 高史, 藤田 悠哉, Yifang Peng (Carnegie Mellon University), 渡部 晋治 (Carnegie Mellon University)
日本音響学会2023年春季研究発表会
2023.3.16
Transformerを用いたエンコーダ・デコーダモデルは、音声認識で広く用いられている手法の1つである。しかしTransformerに導入されている注意機構は、出力層に近づくにつれて注意重みの大きな値が対角成分に集中し過ぎる問題がある。注意重みの分布が急峻になると、特徴系列の局所的な文脈情報しか考慮されず、結果的に音声認識の性能を制限している可能性がある。これに対処するため、本稿では事前分布を仮定した注意重みのスムージング手法を提案する。事前分布として学習可能な帯行列や直前の層の注意重みを用いることにより、認識率が改善することを示す。