音声処理
-
- ワークショップ (国際)
- CAVIARES: Corpus for Audio-Visual Expressive Voice Agent
- Jinsheng Chen (The University of Tokyo), Yuki Saito (The University of Tokyo), Dong Yang (The University of Tokyo), Naoko Tanji (The University of Tokyo), Hironori Doi, Byeongseon Park, Yuma Shirahata, Kentaro Tachibana, Hiroshi Saruwatari (The University of Tokyo)
- 2025 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU 2025)
- 2025.12.9
-
- その他 (国際)
- Evaluating Self-Supervised Speech Models via Text-Based LLMS
- Takashi Maekaku, Keita Goto, Jinchuan Tian (Carnegie Mellon University), Yusuke Shinohara, Shinji Watanabe (Carnegie Mellon University)
- arXiv.org (arXiv)
- 2025.10.7
-
- カンファレンス (国内)
- BitTTS: 1.58-bit量子化と重みインデキシングによる軽量なテキスト音声合成
- 川村 真也, 蓮実 拓也, 白旗 悠真, 山本 龍一
- 日本音響学会 2025年秋季研究発表会 (ASJ 2025 autumn)
- 2025.9.11
-
- その他 (国内)
- 映画音源分離のための非言語音声を含むデータセット
- 蓮実 拓也, 藤田 雄介
- 日本音響学会 2025年秋季研究発表会 (ASJ 2025 autumn)
- 2025.9.10
-
- カンファレンス (国内)
- 音声からの音素・韻律ラベルの獲得とその応用
- 白旗 悠真, 朴 炳宣, 山本 龍一
- 日本音響学会 2025年秋季研究発表会 (ASJ 2025 autumn)
- 2025.9.10
-
- カンファレンス (国際)
- BitTTS: Highly Compact Text-to-Speech Using 1.58-bit Quantization and Weight Indexing
- Masaya Kawamura, Takuya Hasumi, Yuma Shirahata, Ryuichi Yamamoto
- The 26th Annual Conference of the International Speech Communication Association (INTERSPEECH 2025)
- 2025.8.21
-
- カンファレンス (国際)
- Comparative Analysis of Fast and High-Fidelity Neural Vocoders for Low-Latency Streaming Synthesis in Resource-Constrained Environments
- Reo Yoneyama (Nagoya University), Masaya Kawamura, Ryo Terashima, Ryuichi Yamamoto (Nagoya University/LY Corporation), Tomoki Toda (Nagoya University)
- The 26th Annual Conference of the International Speech Communication Association (INTERSPEECH 2025)
- 2025.8.21
-
- カンファレンス (国際)
- DnR-nonverbal: Cinematic Audio Source Separation Dataset Containing Non-Verbal Sounds
- Takuya Hasumi, Yusuke Fujita
- The 26th Annual Conference of the International Speech Communication Association (INTERSPEECH 2025)
- 2025.8.21
-
- カンファレンス (国際)
- Language-Guided Contrastive Audio-Visual Masked Autoencoder with Automatically Generated Audio-Visual-Text Triplets from Videos
- Yuchi Ishikawa, Shota Nakada, Hokuto Munakata, Kazuhiro Saito, Tatsuya Komatsu, Yoshimitsu Aoki (Keio University)
- The 26th Annual Conference of the International Speech Communication Association (INTERSPEECH 2025)
- 2025.8.19
-
- カンファレンス (国際)
- SLASH: Self-Supervised Speech Pitch Estimation Leveraging DSP-derived Absolute Pitch
- Ryo Terashima, Yuma Shirahata, Masaya Kawamura
- The 26th Annual Conference of the International Speech Communication Association (INTERSPEECH 2025)
- 2025.8.19
-
- カンファレンス (国際)
- Grapheme-Coherent Phonemic and Prosodic Annotation of Speech by Implicit and Explicit Grapheme Conditioning
- Hien Ohnaka (Nara Institute of Science and Technology), Yuma Shirahata, Byeongseon Park, Ryuichi Yamamoto
- The 26th Annual Conference of the International Speech Communication Association (INTERSPEECH 2025)
- 2025.8.17
-
- カンファレンス (国際)
- Leveraging Unlabeled Audio for Audio-Text Contrastive Learning via Audio-Composed Text Features
- Tatsuya Komatsu, Hokuto Munakata, Yuchi Ishikawa
- The 26th Annual Conference of the International Speech Communication Association (INTERSPEECH 2025)
- 2025.8.17
-
- カンファレンス (国内)
- 「音学シンポジウム2025」開催にあたって
- 大町 基, 南角 吉彦 (名古屋工業大学), 中村 栄太 (九州大学), 吉井 和佳 (京都大学/理化学研究所), 森川 大輔 (富山県立大学), 坂東 宜昭 (産業技術総合研究所)
- 音学シンポジウム 2025 (第143回音楽情報科学・第156回音声言語情報処理合同研究発表会)
- 2025.6.13
-
- カンファレンス (国際)
- Language-based Audio Moment Retrieval
- Hokuto Munakata, Taichi Nishimura, Shota Nakada, Tatsuya Komatsu
- 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2025)
- 2025.4.11
-
- カンファレンス (国際)
- Description-Based Controllable Text-to-Speech With Cross-Lingual Voice Control
- Ryuichi Yamamoto, Yuma Shirahata, Masaya Kawamura, Kentaro Tachibana
- 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2025)
- 2025.4.6
-
- カンファレンス (国際)
- Investigating Factors Related to the Naturalness of Synthesized Unison Singing
- Kaito Nishizawa (Nagoya University), Ryuichi Yamamoto, Wen-Chin Huang (Nagoya University), Tomoki Toda (Nagoya University)
- 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2025)
- 2025.4.6
-
- カンファレンス (国内)
- Wavehax:調波信号モデルと2次元畳み込みを用いた複素スペクトログラム推定に基づくエイリアシングフリーニューラルボコーダ
- 米山 怜於 (名大), 宮下 敦志 (名大), 山本 龍一, 戸田 智基 (名大)
- 日本音響学会 2025年春季研究発表会 (ASJ 2025 spring)
- 2025.3.17
-
- その他 (国内)
- ホログラフィック縮退表現による音響フィンガープリントのメモリ削減
- 藤田 雄介, 小松 達也
- 日本音響学会 2025年春季研究発表会 (ASJ 2025 spring)
- 2025.3.17
-
- カンファレンス (国内)
- マルチモーダル共感的対話音声合成に向けたコーパスの構築
- 齋藤 佑樹 (東京大学), 陳 晋升 (東京大学), 楊 棟 (東京大学), 丹治 尚子 (東京大学), 土井 啓成, 白旗 悠真, 朴 炳宣, 橘 健太郎, 猿渡 洋 (東京大学)
- 日本音響学会 2025年春季研究発表会 (ASJ 2025 spring)
- 2025.3.17
-
- その他 (国際)
- Description-based Controllable Text-to-Speech with Cross-Lingual Voice Control
- Ryuichi Yamamoto, Yuma Shirahata, Masaya Kawamura, Kentaro Tachibana
- arXiv.org (arXiv)
- 2024.9.27