Publications

論文誌 (国際)
MC-Whisper: Extending Speech Foundation Models to Multichannel Distant Speech Recognition: Xuankai Chang (Carnegie Mellon University), Pengcheng Guo (Northwestern Polytechnical University), Yuya Fujita, Takashi Maekaku, Shinji Watanabe (Carnegie Mellon University); IEEE Signal Processing Letters (IEEE SPL); 2024.8.26

その他 (国際)
Song Data Cleansing for End-to-End Neural Singer Diarization Using Neural Analysis and Synthesis Framework: Hokuto Munakata, Ryo Terashima, Yusuke Fujita; arXiv.org (arXiv); 2024.6.24

カンファレンス (国内)
「音学シンポジウム2024」開催にあたって: 大石康智 (日本電信電話株式会社), 中村栄太 (九州大学), 大町基, 森川大輔 (富山県立大学), 伊藤信貴 (東京大学), 森大毅 (宇都宮大学); 音学シンポジウム 2024 (第140回MUS・第152回SLP合同研究発表会); 2024.6.13

カンファレンス (国際)
Audio Difference Learning for Audio Captioning: Tatsuya Komatsu, Yusuke Fujita, Kazuya Takeda (Nagoya University), Tomoki Toda (Nagoya University); 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2024); 2024.4.14

カンファレンス (国際)
Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard Parameter Sharing: Brian Yan (Carnegie Mellon University), Xuankai Chang (Carnegie Mellon University), Antonios Anastasopoulos (George Mason University), Yuya Fujita, Shinji Watanabe (Carnegie Mellon University); 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2024); 2024.4.14

カンファレンス (国際)
Enhancing Multilingual TTS with Voice Conversion Based Data Augmentation and Posterior Embedding: Hyun-Wook Yoon (NAVER Cloud), Jin-Seob Kim (NAVER Cloud), Ryuichi Yamamoto, Ryo Terashima, Chan-Ho Song (NAVER Cloud), Jae-Min Kim (NAVER Cloud), Eunwoo Song (NAVER Cloud); 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2024); 2024.4.14

カンファレンス (国際)
Keep Decoding Parallel With Effective Knowledge Distillation From Language Models To End-To-End Speech Recognisers: Michael Hentschel (LINE WORKS Corporation), Yuta Nishikawa (Nara Institute of Science and Technology), Tatsuya Komatsu, Yusuke Fujita; 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2024); 2024.4.14

カンファレンス (国際)
PromptTTS++: Controlling Speaker Identity in Prompt-Based Text-To-Speech Using Natural Language Descriptions: Reo Shimizu (Tohoku University), Ryuichi Yamamoto, Masaya Kawamura, Yuma Shirahata, Hironori Doi, Tatsuya Komatsu, Kentaro Tachibana; 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2024); 2024.4.14

その他 (国際)
LV-CTC: Non-autoregressive ASR with CTC and latent variable models: Yuya Fujita, Shinji Watanabe (Carnegie Mellon Univ.), Xuankai Chang (Carnegie Mellon Univ.), Takashi Maekaku; arXiv.org (arXiv); 2024.3.28

カンファレンス (国際)
Exploring Speech Recognition, Translation, and Understanding with Discrete Speech Units: A Comparative Study: Xuankai Chang (Carnegie Mellon University), Brian Yan (Carnegie Mellon University), Kwanghee Choi (Carnegie Mellon University), Jee-Weon Jung (Carnegie Mellon University), Yichen Lu (Carnegie Mellon University), Soumi Maiti (Carnegie Mellon University), Roshan Sharma (Carnegie Mellon University), Jiatong Shi (Carnegie Mellon University), Jinchuan Tian (Carnegie Mellon University), Shinji Watanabe (Carnegie Mellon University), Yuya Fujita, Takashi Maekaku, Pengcheng Guo (Northwestern Polytechnical University), Yao-Fei Cheng (University of Washington), Pavel Denisov (University of Stuttgart), Kohei Saijo (Waseda University), Hsiu-Hsuan Wang (National Taiwan University); 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2024); 2024.3.20

カンファレンス (国際)
Hubertopic: Enhancing Semantic Representation of Hubert Through Self-Supervision Utilizing Topic Model: Takashi Maekaku, Jiatong Shi (Carnegie Mellon University), Xuankai Chang (Carnegie Mellon University), Yuya Fujita, Shinji Watanabe (Carnegie Mellon University); 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2024); 2024.3.20

カンファレンス (国内)
日本語テキストと音楽の対照学習の実験的評価: 蓮実拓也, 小松達也, 藤田雄介, 二又航介, 橘健太郎; 日本音響学会 2024年春季研究発表会 (ASJ 2024 spring); 2024.3.7

カンファレンス (国内)
拡散過程と敵対的学習の併用による普遍音声強調: シャイブラーロビン, 藤田雄介, 橘健太郎; 日本音響学会 2024年春季研究発表会 (ASJ 2024 spring); 2024.3.6

カンファレンス (国内)
音声品質と音響環境の潜在変数で条件付けたDenoising Trainingによるノイズロバスト音声変換: 五十嵐琢斗 (東京大学), 齋藤佑樹 (東京大学), 関健太郎 (東京大学), 高道慎之介 (東京大学), 山本龍一, 橘健太郎, 猿渡洋 (東京大学); 電子情報通信学会/日本音響学会音声研究会 (IEICE/ASJ-SP); 2024.2.22

ワークショップ (国際)
A Comparative Study of Voice Conversion Models with Large-Scale Speech and Singing Data: The T13 Systems for the Singing Voice Conversion Challenge 2023: Ryuichi Yamamoto (Nagoya University / LINE Corp.), Reo Yoneyama (Nagoya University), Lester Phillip Violeta (Nagoya University), Wen-Chin Huang (Nagoya University), Tomoki Toda (Nagoya University); The 2023 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU 2023); 2023.12.19

カンファレンス (国際)
Domain Adaptation by Data Distribution Matching via Submodularity for Speech Recognition: Yusuke Shinohara, Shinji Watanabe (Carnegie Mellon University); The 2023 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU 2023); 2023.12.16

カンファレンス (国際)
LV-CTC: Non-autoregressive ASR with CTC and Latent Variable Models: Yuya Fujita, Shinji Watanabe (Carnegie Mellon Univ.), Xuankai Chang (Carnegie Mellon Univ.), Takashi Maekaku; The 2023 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU 2023); 2023.12.16

論文誌 (国際)
Self-conditioning via Intermediate Predictions for End-to-end Neural Speaker Diarization: Yusuke Fujita, Tetsuji Ogawa (Waseda University), Tetsunori Kobayashi (Waseda University); IEEE Access; 2023.12.7

その他 (国際)
HuBERTopic: Enhancing Semantic Representation of HuBERT through Self-supervision Utilizing Topic Model: Takashi Maekaku, Jiatong Shi (Carnegie Mellon University), Xuankai Chang (Carnegie Mellon University), Yuya Fujita, Shinji Watanabe (Carnegie Mellon University); arXiv; 2023.10.9

カンファレンス (国内)
End-to-end 音声認識器の中間層への言語知識転移: Michael Hentschel (WORKS MOBILE JAPAN), 西川勇太 (奈良先端科学技術大学院大学), 小松達也, 藤田雄介; 日本音響学会 2023年秋季研究発表会 (ASJ 2023 autumn); 2023.9.26