Publications

カンファレンス (国際)
Deep Speech Extraction with Time-Varying Spatial Filtering Guided By Desired Direction Attractor: Yu Nakagome (Waseda University), Masahito Togami, Tetsuji Ogawa (Waseda University), Tetsunori Kobayashi (Waseda University); 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2020); 2020.5.4

カンファレンス (国際)
ESPnet-TTS: Unified, Reproducible, and Integratable Open Source End-to-End Text-to-Speech Toolkit: Tomoki Hayashi (Nagoya University), Ryuichi Yamamoto, Katsuki Inoue (Okayama University), Takenori Yoshimura (Nagoya University), Shinji Watanabe (Johns Hopkins University), Tomoki Toda (Nagoya University), Kazuya Takeda (Nagoya University), Yu Zhang (Google AI), Xu Tan (Microsoft Research); 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2020); 2020.5.4

カンファレンス (国際)
Fast Start-Up Algorithm for Adaptive Noise Cancellers with Novel SNR Estimation and Stepsize Control: Akihiko Sugiyama; International Conference on Acoustics, Speech, and Signal Processing 2020 (ICASSP2020); 2020.5.4

カンファレンス (国際)
Improving LPCNet-Based Text-to-Speech with Linear Prediction-Structured Mixture Density Network: Min-Jae Hwang (Search Solutions Inc), Eunwoo Song (NAVER), Ryuichi Yamamoto, Frank Soong (Microsoft Research Asia), Hong-Goo Kang (Yonsei University); 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2020); 2020.5.4

カンファレンス (国際)
Joint Training of Deep Neural Networks for Multi-Channel Dereverberation and Speech Source Separation: Masahito Togami; 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2020); 2020.5.4

カンファレンス (国際)
Multi-Channel Speech Source Separation and Dereverberation With Sequential Integration of Determined and Underdetermined Models: Masahito Togami; 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2020); 2020.5.4

カンファレンス (国際)
Parallel WaveGAN: A Fast Waveform Generation Model Based on Generative Adversarial Networks with Multi-Resolution Spectrogram: Ryuichi Yamamoto, Eunwoo Song (NAVER), Jae-Min Kim (NAVER); 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2020); 2020.5.4

カンファレンス (国際)
Scene-Dependent Acoustic Event Detection with Scene Conditioning and Fake-Scene-Conditioned Loss: Tatsuya Komatsu, Keisuke Imoto (Ritsumeikan University), Masahito Togami; 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2020); 2020.5.4

カンファレンス (国際)
Semi-Supervised Speaker Adaptation for End-to-End Speech Synthesis with Pretrained Models: Katsuki Inoue (Okayama University), Sunao Hara (Okayama University), Masanobu Abe (Okayama University), Tomoki Hayashi (Nagoya University), Ryuichi Yamamoto, Shinji Watanabe (Johns Hopkins University); 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2020); 2020.5.4

カンファレンス (国際)
Unsupervised Training for Deep Speech Source Separation with Kullback-Leibler Divergence Based Probabilistic Loss Function: Masahito Togami, Yoshiki Masuyama (Waseda University), Tatsuya Komatsu, Yu Nakagome (Waseda University); 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2020); 2020.5.4

カンファレンス (国際)
Weakly-Supervised Sound Event Detection with Self-Attention: Koichi Miyazaki, Tatsuya Komatsu, Tomoki Hayashi (Nagoya University), Shinji Watanabe (Johns Hopkins University), Tomoki Toda (Nagoya University), Kazuya Takeda (Nagoya University); 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2020); 2020.5.4

カンファレンス (国内)
（招待講演）End-to-end 音声合成の研究を加速させるオープンソースツールキット ESPnet-TTS: 林知樹 (名古屋大学), 山本龍一, 井上勝喜 (岡山大学), 吉村建慶 (岡山大学), 武田一哉 (名古屋大学), 戸田智基 (名古屋大学), 渡部晋治 (Johns Hopkins University); 日本音響学会 2020年春季研究発表会 (ASJ 2020 spring); 2020.3.16

カンファレンス (国内)
Self-attention を用いた弱教師あり音響イベント検出: 宮崎晃一 (名古屋大学), 小松達也, 林知樹 (名古屋大学), 渡部晋治 (Johns Hopkins University), 戸田智基 (名古屋大学), 武田一哉 (名古屋大学); 日本音響学会 2020年春季研究発表会 (ASJ 2020 spring); 2020.3.16

カンファレンス (国内)
所望音源の方向アトラクターに基づく時変の空間フィルタを用いた DNN 音声抽出: 中込優 (早稲田大学), 戸上真人, 小川哲司 (早稲田大学), 小林哲則 (早稲田大学); 日本音響学会 2020年春季研究発表会 (ASJ 2020 spring); 2020.3.16

カンファレンス (国内)
End-to-End 音声認識を用いた音声合成の半教師あり話者適応: 井上勝喜 (岡山大学), 原直 (岡山大学), 阿部匡伸 (岡山大学), 林知樹 (名古屋大学), 山本龍一, 渡部晋治 (Johns Hopkins University); 日本音響学会 2020年春季研究発表会 (ASJ 2020 spring); 2020.3.16

カンファレンス (国内)
軽量・動的畳み込みを用いたend-to-end音声認識: 藤田悠哉, Aswin Shanmugam Subramanian*, 大町基, 渡部晋治* (* Johns Hopkins University); 日本音響学会2020年春季研究発表会 (音響学会); 2020.3.9

その他 (国際)
Attention-based ASR with Lightweight and Dynamic Convolutions: Yuya Fujita, Aswin Shanmugam Subramanian (Johns Hopkins University), Motoi Omachi, Shinji Watanabe (Johns Hopkins University); arXiv.org; 2020.2.20

カンファレンス (国際)
Fast Convergence Algorithm for Adaptive Noise Cancellers with SNR-Based Stepsize Control: Akihiko Sugiyama; International Conference on Consumer Electronics 2020 (ICCE2020); 2020.1.4

ワークショップ (国際)
A Comparative Study on Transformer vs RNN in Speech Applications: Shigeki Karita (NTT), Nanxin Chen (Johns Hopkins University), Tomoki Hayashi (Nagoya University, Human Dataware Lab. Co., Ltd.), Takaaki Hori (Mitsubishi Electric Research Laboratories,), Hirofumi Inaguma (Kyoto University), Ziyan Jiang (Johns Hopkins University), Masao Someki (Nagoya University), Nelson Enrique Yalta Soplin (Waseda University), Ryuichi Yamamoto, Xiaofei Wang (Johns Hopkins University), Shinji Watanabe (Johns Hopkins University), Takenori Yoshimura (Nagoya University, Human Dataware Lab. Co., Ltd.), Wangyou Zhang (Shanghai Jiao Tong University); 2019 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU) (ASRU 2019); 2019.12.14

ワークショップ (国際)
Fast Convergence Algorithm for State-Space Model Based Speech Dereverberation by Multi-Channel Non-Negative Matrix Factorization: Masahito Togami, Tatsuya Komatsu; 2019 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA 2019); 2019.10.20