Publications

カンファレンス (国内) 軽量・動的畳み込みを用いたend-to-end音声認識

藤田 悠哉, Aswin Shanmugam Subramanian*, 大町 基, 渡部晋治* (* Johns Hopkins University)

日本音響学会2020年春季研究発表会 (音響学会)

2020.3.9

音声認識の研究領域では, 単一のニューラルネットワークで構成されるend-to-end(E2E)モデルが主流になりつつある. 特に, 機械翻訳で提案されたTransformerを用いたE2Eモデルは種々のタスクにおいて従来法を上回る精度を達成している. しかし, Transformerで用いられる自己注意(self-attention)ネットワークは,その計算量が入力系列長の自乗に比例するため,長い系列に対して計算時間とメモリを多く消費するという課題がある.この計算量を系列長に対して線形に抑えるべく,本稿では, 機械翻訳の分野で提案されている動的・軽量畳み込み構造を応用する.