Publications

カンファレンス (国内) 中間層予測を用いたEnd-to-end ダイアライゼーション

藤田 雄介, 小松 達也, Scheibler Robin, 木田 祐介, 小川 哲司 (早稲田大学)

日本音響学会 2023年春季研究発表会 (ASJ 2023 spring)

2023.3.15

End-to-endダイアライゼーション (EEND) は、話者ダイアライゼーションにおける一連の課題(音声/非音声境界の識別、話者交替の識別、重複区間の検出、各音声区間への話者ラベルの割り当て)を、単一のニューラルネットワークでモデル化する。既存のEENDモデルは、非自己回帰型の構成により、全ての時間フレームの話者ラベルを同時に生成できる。しかし、自己回帰型ではないため、出力話者ラベルのフレーム間依存性を考慮した学習が難しい。そこで、本研究では,フレーム間依存性を導入した新しいEENDモデルを提案する。提案手法は、中間層で話者ラベルを予測し、そのラベルを用いて上層の条件付けを行う。提案モデルは非自己回帰的に動作するが、中間層において得られる話者ラベル系列全体を参照することでフレーム間の依存性を考慮する。2話者CALLHOMEデータセットを用いた実験により、提案手法の有効性を確認した。