Publications

カンファレンス (国際)
Neural Diarization with Non-Autoregressive Intermediate Attractors: Yusuke Fujita, Tatsuya Komatsu, Robin Scheibler, Yusuke Kida, Tetsuji Ogawa (Waseda University); 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2023); 2023.6.4

カンファレンス (国際)
NNSVS: A Neural Network-Based Singing Voice Synthesis Toolkit: Ryuichi Yamamoto (LINE/Nagoya University), Reo Yoneyama (Nagoya University), Tomoki Toda (Nagoya University); 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2023); 2023.6.4

カンファレンス (国際)
Non-parallel High-Quality Audio Super Resolution with Domain Adaptation and Resampling CycleGANs: Reo Yoneyama (Nagoya University), Ryuichi Yamamoto, Kentaro Tachibana; 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2023); 2023.6.4

カンファレンス (国際)
Period VITS: Variational Inference With Explicit Pitch Modeling For End-to-End Emotional Speech: Yuma Shirahata, Ryuichi Yamamoto, Eunwoo Song (NAVER), Ryo Terashima, Jae-Min Kim (NAVER), Kentaro Tachibana; 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2023); 2023.6.4

その他 (国際)
Exploration of Efficient End-to-End ASR using Discretized Input from Self-Supervised Learning: Xuankai Chang (Carnegie Mellon University), Brian Yan (Carnegie Mellon University), Yuya Fujita, Takashi Maekaku, Shinji Watanabe (Carnegie Mellon University); arXiv; 2023.5.29

カンファレンス (国際)
Align, Write, Re-order: Explainable End-to-End Speech Translation via Operation Sequence Generation: Motoi Omachi, Brian Yan (Carnegie Mellon University), Siddharth Dalmia (Carnegie Mellon University), Yuya Fujita, Shinji Watanabe (Carnegie Mellon University); 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2023); 2023.5.8

カンファレンス (国内)
訳語対の推定と順序入れ替え操作による説明可能なEnd-to-end音声翻訳: 大町基, Brian Yan (Carnegie Mellon University), Siddharth Dalmia (Carnegie Mellon University), 藤田悠哉, 渡部晋治 (Carnegie Mellon University); 日本音響学会2023年春季研究発表会 (音響学会); 2023.3.22

カンファレンス (国内)
Transformerを用いた音声認識モデルにおける事前分布を用いた注意重みの平滑化の検討: 前角高史, 藤田悠哉, Yifang Peng (Carnegie Mellon University), 渡部晋治 (Carnegie Mellon University); 日本音響学会2023年春季研究発表会; 2023.3.16

カンファレンス (国内)
Diffusion-Mixing Process for Speech Source Separation: シャイブラーロビン, Ji Youna (NAVER), Chung Soo-Whan (NAVER), Byun Jaeuk (NAVER), Choe Soyeon (NAVER), Choi Min-Seok (NAVER); 日本音響学会 2023年春季研究発表会 (ASJ 2023 spring); 2023.3.15

カンファレンス (国内)
ヘビーテイル生成モデルに基づく独立低ランク行列分析における iterative source steering を用いた分離行列の更新: 蓮実拓也, シャイブラーロビン; 日本音響学会 2023年春季研究発表会 (ASJ 2023 spring); 2023.3.15

カンファレンス (国内)
中間層予測を用いたEnd-to-end ダイアライゼーション: 藤田雄介, 小松達也, Scheibler Robin, 木田祐介, 小川哲司 (早稲田大学); 日本音響学会 2023年春季研究発表会 (ASJ 2023 spring); 2023.3.15

カンファレンス (国内)
ストリーミング End-to-End 音声認識のための RNN Transducer の最小遅延学習: 篠原雄介, 渡部晋治 (Carnegie Mellon University); 日本音響学会2023年春季研究発表会; 2023.3.15

その他 (国内)
日本語音声認識における語彙集合分割とマルチタスク学習による目的語彙抽出: 伊藤葵 (LINE/法政大学), 小松達也, 藤田雄介; 電子情報通信学会/日本音響学会音声研究会 (SP研究会); 2023.2.28

カンファレンス (国際)
Alternate Intermediate Conditioning with Syllable-level and Character-level Targets for Japanese ASR: Yusuke Fujita, Tatsuya Komatsu, Yusuke Kida; The 2022 IEEE Spoken Language Technology Workshop (SLT 2022); 2023.1.9

カンファレンス (国際)
End-to-End Multi-speaker ASR with Independent Vector Analysis: Robin Scheibler, Wangyou Zhang (Shanghai Jiao Tong University), Xuankai Chang (Carnegie Mellon University), Shinji Watanabe (Carnegie Mellon University), Yanmin Qian (Shanghai Jiao Tong University); The 2022 IEEE Spoken Language Technology Workshop (SLT 2022); 2023.1.9

カンファレンス (国際)
Inter-Decoder: Using Attention-Decoder losses as Intermediate Regularization for CTC-based Speech Recognition: Tatsuya Komatsu, Yusuke Fujita; The 2022 IEEE Spoken Language Technology Workshop (SLT 2022); 2023.1.9

カンファレンス (国際)
Adaptive Noise Canceller Algorithm with an SNR-Based Stepsize and Controlled Averaging: Akihiko Sugiyama; IEEE International Conference on Consumer Electronics (ICCE); 2023.1.6

その他 (国内)
Raw or cooked? That is the Question in Adaptive Noise Cancelling: Akihiko Sugiyama; 電子情報通信学会第37回信号処理シンポジウム (SIPシンポジウム); 2022.12.13

その他 (国際)
Align, Write, Re-order: Explainable End-to-End Speech Translation via Operation Sequence Generation: Motoi Omachi, Brian Yan (Carnegie Mellon University), Siddharth Dalmia (Carnegie Mellon University), Yuya Fujita, Shinji Watanabe (Carnegie Mellon University); arXiv.org (arXiv); 2022.11.14

カンファレンス (国際)
How Information on Acoustic Scenes and Sound Events Mutually Benefits Event Detection and Scene Classification Tasks.: Ami Igarashi (Doshisha University), Keisuke Imoto (Doshisha University), Yuka Komatsu (Doshisha University), Shunsuke Tsubaki (Doshisha University), Shuto Hario (Doshisha University), Tatsuya Komatsu; Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 2022 (APSIPA ASC 2022); 2022.11.7