Publications

カンファレンス (国際)
Grapheme-Coherent Phonemic and Prosodic Annotation of Speech by Implicit and Explicit Grapheme Conditioning: Hien Ohnaka (Nara Institute of Science and Technology), Yuma Shirahata, Byeongseon Park, Ryuichi Yamamoto; The 26th Annual Conference of the International Speech Communication Association (INTERSPEECH 2025); 2025.8.17

カンファレンス (国際)
Leveraging Unlabeled Audio for Audio-Text Contrastive Learning via Audio-Composed Text Features: Tatsuya Komatsu, Hokuto Munakata, Yuchi Ishikawa; The 26th Annual Conference of the International Speech Communication Association (INTERSPEECH 2025); 2025.8.17

カンファレンス (国内)
「音学シンポジウム2025」開催にあたって: 大町基, 南角吉彦 (名古屋工業大学), 中村栄太 (九州大学), 吉井和佳 (京都大学/理化学研究所), 森川大輔 (富山県立大学), 坂東宜昭 (産業技術総合研究所); 音学シンポジウム 2025 (第143回音楽情報科学・第156回音声言語情報処理合同研究発表会); 2025.6.13

カンファレンス (国際)
Language-based Audio Moment Retrieval: Hokuto Munakata, Taichi Nishimura, Shota Nakada, Tatsuya Komatsu; 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2025); 2025.4.11

カンファレンス (国際)
Description-Based Controllable Text-to-Speech With Cross-Lingual Voice Control: Ryuichi Yamamoto, Yuma Shirahata, Masaya Kawamura, Kentaro Tachibana; 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2025); 2025.4.6

カンファレンス (国際)
Investigating Factors Related to the Naturalness of Synthesized Unison Singing: Kaito Nishizawa (Nagoya University), Ryuichi Yamamoto, Wen-Chin Huang (Nagoya University), Tomoki Toda (Nagoya University); 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2025); 2025.4.6

カンファレンス (国内)
Wavehax：調波信号モデルと２次元畳み込みを用いた複素スペクトログラム推定に基づくエイリアシングフリーニューラルボコーダ: 米山怜於 (名大), 宮下敦志 (名大), 山本龍一, 戸田智基 (名大); 日本音響学会 2025年春季研究発表会 (ASJ 2025 spring); 2025.3.17

その他 (国内)
ホログラフィック縮退表現による音響フィンガープリントのメモリ削減: 藤田雄介, 小松達也; 日本音響学会 2025年春季研究発表会 (ASJ 2025 spring); 2025.3.17

カンファレンス (国内)
マルチモーダル共感的対話音声合成に向けたコーパスの構築: 齋藤佑樹 (東京大学), 陳晋升 (東京大学), 楊棟 (東京大学), 丹治尚子 (東京大学), 土井啓成, 白旗悠真, 朴炳宣, 橘健太郎, 猿渡洋 (東京大学); 日本音響学会 2025年春季研究発表会 (ASJ 2025 spring); 2025.3.17

その他 (国際)
Description-based Controllable Text-to-Speech with Cross-Lingual Voice Control: Ryuichi Yamamoto, Yuma Shirahata, Masaya Kawamura, Kentaro Tachibana; arXiv.org (arXiv); 2024.9.27

カンファレンス (国際)
Audio-conditioned phonemic and prosodic annotation for building text-to-speech models from unlabeled speech data: Yuma Shirahata, Byeongseon Park, Ryuichi Yamamoto, Kentaro Tachibana; The 25th Annual Conference of the International Speech Communication Association (INTERSPEECH 2024); 2024.9.4

カンファレンス (国内)
トピックモデルを用いた教師なし学習によるHuBERTの意味表現向上: 前角高史, Jiatong Shi (カーネギーメロン大学), Xuankai Chang (カーネギーメロン大学), 藤田悠哉, 渡部晋治 (カーネギーメロン大学); 日本音響学会 2024年秋季研究発表会 (ASJ 2024 autumn); 2024.9.4

カンファレンス (国内)
感情音声合成のためのアラインメント手法の比較: 蓮実拓也, 白旗悠真, Welly Naptali, 山本龍一, Eunwoo Song (NAVER Cloud), 橘健太郎, Jae-Min Kim (NAVER Cloud); 日本音響学会 2024年秋季研究発表会 (ASJ 2024 autumn); 2024.9.4

カンファレンス (国内)
離散トークン音声認識におけるドメイン適応の検討: 石井敬章, 小松達也, 藤田雄介, 藤田悠哉; 日本音響学会 2024年秋季研究発表会 (ASJ 2024 autumn); 2024.9.4

カンファレンス (国際)
LibriTTS-P: A Corpus with Speaking Style and Speaker Identity Prompts for Text-to-Speech and Style Captioning: Masaya Kawamura, Ryuichi Yamamoto, Yuma Shirahata, Takuya Hasumi, Kentaro Tachibana; The 25th Annual Conference of the International Speech Communication Association (INTERSPEECH 2024); 2024.9.3

カンファレンス (国際)
Song Data Cleansing for End-to-End Neural Singer Diarization Using Neural Analysis and Synthesis Framework: Hokuto Munakata, Ryo Terashima, Yusuke Fujita; The 25th Annual Conference of the International Speech Communication Association (INTERSPEECH 2024); 2024.9.3

カンファレンス (国際)
Audio Fingerprinting with Holographic Reduced Representations: Yusuke Fujita, Tatsuya Komatsu; The 25th Annual Conference of the International Speech Communication Association (INTERSPEECH 2024); 2024.9.1

カンファレンス (国際)
Noise-Robust Voice Conversion by Conditional Denoising Training Using Latent Variables of Recording Quality and Environment: Takuto Igarashi (The University of Tokyo), Yuki Saito (The University of Tokyo), Kentaro Seki (The University of Tokyo), Shinnosuke Takamichi (The University of Tokyo), Ryuichi Yamamoto, Kentaro Tachibana, Hiroshi Saruwatari (The University of Tokyo); The 25th Annual Conference of the International Speech Communication Association (INTERSPEECH 2024); 2024.9.1

カンファレンス (国際)
SRC4VC: Smartphone-Recorded Corpus for Voice Conversion Benchmark: Yuki Saito (The University of Tokyo), Takuto Igarashi (The University of Tokyo), Kentaro Seki (The University of Tokyo), Shinnosuke Takamichi (The University of Tokyo), Ryuichi Yamamoto, Kentaro Tachibana, Hiroshi Saruwatari (The University of Tokyo); The 25th Annual Conference of the International Speech Communication Association (INTERSPEECH 2024); 2024.9.1

カンファレンス (国際)
Universal Score-based Speech Enhancement with High Content Preservation: Robin Scheibler, Yusuke Fujita, Yuma Shirahata, Tatsuya Komatsu; The 25th Annual Conference of the International Speech Communication Association (INTERSPEECH 2024); 2024.9.1