Publications

カンファレンス (国際)
CC-G2PNP: Streaming Grapheme-to-Phoneme and Prosody with Conformer-CTC for Unsegmented Languages: Yuma Shirahata, Ryuichi Yamamoto; 2026 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2026); 2026.5.7

カンファレンス (国際)
CASTELLA: Long Audio Dataset with Captions and Temporal Boundaries: Hokuto Munakata, Takehiro Imamura (Nagoya University), Taichi Nishimura, Tatsuya Komatsu; 2026 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2026); 2026.5.6

カンファレンス (国際)
Wave-Trainer-Fit: Neural Vocoder With Trainable Prior And Fixed-Point Iteration Towards High-Quality Speech Generation From SSL Features: Hien Ohnaka (Nara Institute of Science and Technology), Yuma Shirahata, Masaya Kawamura; 2026 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2026); 2026.5.5

カンファレンス (国際)
Online Register For Dual-Mode Self-Supervised Speech Models: Mitigating the Lack of Future Context: Keita Goto, Takashi Maekaku, Jin Sakuma, Jinchuan Tian (Carnegie Mellon University), Yusuke Shinohara, Shinji Watanabe (Carnegie Mellon University); 2026 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2026); 2026.5.4

カンファレンス (国内)
ニューラルオーディオコーデック特徴量を用いた音声から話者特有の表情予測モデルの構築及び分析: 朴浚鎔 (東京大学), 陳晋升 (東京大学), 土井啓成, 朴炳宣, 白旗悠真, 橘健太郎, 楊棟 (東京大学), 齋藤佑樹 (東京大学), 猿渡洋 (東京大学); 日本音響学会 2026年春季研究発表会 (ASJ 2026 spring); 2026.3.19

カンファレンス (国内)
テキストベースの大規模言語モデルを用いた音声事前学習モデルの評価: 前角高史, 後藤啓太, Jinchuan Tian (カーネギーメロン大学), 篠原雄介, 渡部晋治 (カーネギーメロン大学); 日本音響学会 2026年春季研究発表会 (ASJ 2026 spring); 2026.3.17

その他 (国際)
Online Register for Dual-Mode Self-Supervised Speech Models: Mitigating The Lack of Future Context: Keita Goto, Takashi Maekaku, Jin Sakuma, Jinchuan Tian (Carnegie Mellon University), Yusuke Shinohara, Shinji Watanabe (Carnegie Mellon University); arXiv.org (arXiv); 2026.3.2

その他 (国際)
Bagpiper: Solving Open-Ended Audio Tasks via Rich Captions: Jinchuan Tian (Carnegie Mellon University), Haoran Wang (Carnegie Mellon University), Bo-Hao Su (Carnegie Mellon University), Chien-Yu Huang (Carnegie Mellon University), Qingzheng Wang (Carnegie Mellon University), Jiatong Shi (Carnegie Mellon University), William Chen (Carnegie Mellon University), Xun Gong (Carnegie Mellon University), Siddhant Arora (Carnegie Mellon University), Chin-Jou Li (Carnegie Mellon University), Masao Someki (Carnegie Mellon University), Takashi Maekaku, Keita Goto, Yusuke Shinohara, Jin Sakuma, Chao-Han Huck Yang (NVIDIA Research), Shinji Watanabe (Carnegie Mellon University); arXiv.org (arXiv); 2026.2.6

ワークショップ (国際)
CAVIARES: Corpus for Audio-Visual Expressive Voice Agent: Jinsheng Chen (The University of Tokyo), Yuki Saito (The University of Tokyo), Dong Yang (The University of Tokyo), Naoko Tanji (The University of Tokyo), Hironori Doi, Byeongseon Park, Yuma Shirahata, Kentaro Tachibana, Hiroshi Saruwatari (The University of Tokyo); 2025 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU 2025); 2025.12.9

ワークショップ (国際)
Evaluating Self-Supervised Speech Models Via Text-Based LLMs: Takashi Maekaku, Keita Goto, Jinchuan Tian (Carnegie Mellon University), Yusuke Shinohara, Shinji Watanabe (Carnegie Mellon University); 2025 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU 2025); 2025.12.8

その他 (国際)
CASTELLA: Long Audio Dataset with Captions and Temporal Boundaries: Hokuto Munakata, Takehiro Imamura (Nagoya University), Taichi Nishimura, Tatsuya Komatsu; arXiv.org (arXiv); 2025.11.19

その他 (国際)
Evaluating Self-Supervised Speech Models via Text-Based LLMS: Takashi Maekaku, Keita Goto, Jinchuan Tian (Carnegie Mellon University), Yusuke Shinohara, Shinji Watanabe (Carnegie Mellon University); arXiv.org (arXiv); 2025.10.7

カンファレンス (国内)
BitTTS: 1.58-bit量子化と重みインデキシングによる軽量なテキスト音声合成: 川村真也, 蓮実拓也, 白旗悠真, 山本龍一; 日本音響学会 2025年秋季研究発表会 (ASJ 2025 autumn); 2025.9.11

その他 (国内)
映画音源分離のための非言語音声を含むデータセット: 蓮実拓也, 藤田雄介; 日本音響学会 2025年秋季研究発表会 (ASJ 2025 autumn); 2025.9.10

カンファレンス (国内)
音声からの音素・韻律ラベルの獲得とその応用: 白旗悠真, 朴炳宣, 山本龍一; 日本音響学会 2025年秋季研究発表会 (ASJ 2025 autumn); 2025.9.10

カンファレンス (国際)
BitTTS: Highly Compact Text-to-Speech Using 1.58-bit Quantization and Weight Indexing: Masaya Kawamura, Takuya Hasumi, Yuma Shirahata, Ryuichi Yamamoto; The 26th Annual Conference of the International Speech Communication Association (INTERSPEECH 2025); 2025.8.21

カンファレンス (国際)
Comparative Analysis of Fast and High-Fidelity Neural Vocoders for Low-Latency Streaming Synthesis in Resource-Constrained Environments: Reo Yoneyama (Nagoya University), Masaya Kawamura, Ryo Terashima, Ryuichi Yamamoto (Nagoya University/LY Corporation), Tomoki Toda (Nagoya University); The 26th Annual Conference of the International Speech Communication Association (INTERSPEECH 2025); 2025.8.21

カンファレンス (国際)
DnR-nonverbal: Cinematic Audio Source Separation Dataset Containing Non-Verbal Sounds: Takuya Hasumi, Yusuke Fujita; The 26th Annual Conference of the International Speech Communication Association (INTERSPEECH 2025); 2025.8.21

カンファレンス (国際)
Language-Guided Contrastive Audio-Visual Masked Autoencoder with Automatically Generated Audio-Visual-Text Triplets from Videos: Yuchi Ishikawa, Shota Nakada, Hokuto Munakata, Kazuhiro Saito, Tatsuya Komatsu, Yoshimitsu Aoki (Keio University); The 26th Annual Conference of the International Speech Communication Association (INTERSPEECH 2025); 2025.8.19

カンファレンス (国際)
SLASH: Self-Supervised Speech Pitch Estimation Leveraging DSP-derived Absolute Pitch: Ryo Terashima, Yuma Shirahata, Masaya Kawamura; The 26th Annual Conference of the International Speech Communication Association (INTERSPEECH 2025); 2025.8.19