Publications

CONFERENCE (DOMESTIC) Self-attention を用いた弱教師あり音響イベント検出

宮崎 晃一 (名古屋大学), 小松 達也, 林 知樹 (名古屋大学), 渡部 晋治 (Johns Hopkins University), 戸田 智基 (名古屋大学), 武田 一哉 (名古屋大学)

日本音響学会 2020年春季研究発表会 (ASJ 2020 spring)

March 16, 2020

音響イベント検出は、音響イベントの種類とそのタイミングを特定する技術で、ライフログや監視システムなどの応用が期待される。機械学習を活用した多くの手法が提案されており、タイムスタンプ付きデータを使った教師あり学習は高性能だが、アノテーションが高コストとなる。そこで、弱教師あり学習を用いた音響イベント検出が注目されている。この手法では、タイムスタンプ付きラベルを強ラベル、なしを弱ラベルとし、弱ラベルを用いてフレームの予測を集約し、誤差を最小化する。Attention poolingは、フレームの重要度を動的に判断し、高い精度を持つ。本研究では、self-attentionを用いたネットワークを提案し、系列情報の集約のためのトークンを導入する。実験結果は、提案手法がCRNNベースラインよりも優れていることを示している。