Publications

CONFERENCE (INTERNATIONAL)
Retrieval of LoRA Models based on Layer-Wise Weight Embedding without Metadata: Yuro Kanada (Shizuoka University), Yuma Oe (Shizuoka University), Huu-Long Pham (University of Tsukuba), Makoto P. Kato (University of Tsukuba), Hiroaki Ohshima (University of Hyogo), Sumio Fujita, Yoshiyuki Shoji (Shizuoka University); The 16th ACM International Conference on Multimedia Retrieval (ICMR 2026); June 15, 2026

CONFERENCE (INTERNATIONAL)
Which LoRA Should Be Merged Next? Retrieving an Additional LoRA from a Target Image: Daichi Sugita (Shizuoka University), Huu-Long Pham (University of Hyogo), Makoto P. Kato (University of Tsukuba), Hiroaki Ohshima (University of Hyogo), Sumio Fujita, Yoshiyuki Shoji (Shizuoka University); The 16th ACM International Conference on Multimedia Retrieval (ICMR 2026); June 15, 2026

CONFERENCE (INTERNATIONAL)
Causal Motion Diffusion Models for Autoregressive Motion Generation: Qing Yu, Akihisa Watanabe (Waseda University), Kent Fujiwara; The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2026 (CVPR 2026); June 07, 2026

CONFERENCE (INTERNATIONAL)
ProjFlow: Projection Sampling with Flow Matching for Zero‑Shot Exact Spatial Motion Control: Akihisa Watanabe (Waseda University), Qing Yu, Edgar Simo-Serra (Waseda University), Kent Fujiwara; The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2026 (CVPR 2026); June 05, 2026

OTHERS (DOMESTIC)
楽曲の文脈情報理解に向けたマルチモーダル大規模言語モデルによる楽曲同定能力の検討: 竹本健悟 (LINEヤフー株式会社/東京大学), 蓮実拓也, Welly Naptali, 和気雅弥, 橘健太郎; 音学シンポジウム 2026 (第146回音楽情報科学・第160回音声言語情報処理合同研究発表会); June 05, 2026

CONFERENCE (INTERNATIONAL)
CASTELLA: Long Audio Dataset with Captions and Temporal Boundaries: Hokuto Munakata, Takehiro Imamura (Nagoya University), Taichi Nishimura, Tatsuya Komatsu; 2026 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2026); May 06, 2026

CONFERENCE (DOMESTIC)
ニューラルオーディオコーデック特徴量を用いた音声から話者特有の表情予測モデルの構築及び分析: 朴浚鎔 (東京大学), 陳晋升 (東京大学), 土井啓成, 朴炳宣, 白旗悠真, 橘健太郎, 楊棟 (東京大学), 齋藤佑樹 (東京大学), 猿渡洋 (東京大学); 日本音響学会 2026年春季研究発表会 (ASJ 2026 spring); March 19, 2026

CONFERENCE (INTERNATIONAL)
Shape-N-Motion: Fine-Grained Hand Object Manipulation Recognition with Ultrasonic and IMU: Kaito Fujishige (Institute of Science Tokyo), Kota Tsubouchi, Yuuki Nishiyama (The University of Tokyo), Masamichi Shimosaka (Institute of Science Tokyo); The 24th International Conference on Pervasive Computing and Communications (PerCom 2026); March 17, 2026

WORKSHOP (INTERNATIONAL)
CAVIARES: Corpus for Audio-Visual Expressive Voice Agent: Jinsheng Chen (The University of Tokyo), Yuki Saito (The University of Tokyo), Dong Yang (The University of Tokyo), Naoko Tanji (The University of Tokyo), Hironori Doi, Byeongseon Park, Yuma Shirahata, Kentaro Tachibana, Hiroshi Saruwatari (The University of Tokyo); 2025 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU 2025); December 09, 2025

OTHERS (INTERNATIONAL)
CASTELLA: Long Audio Dataset with Captions and Temporal Boundaries: Hokuto Munakata, Takehiro Imamura (Nagoya University), Taichi Nishimura, Tatsuya Komatsu; arXiv.org (arXiv); November 19, 2025

CONFERENCE (INTERNATIONAL)
DnR-nonverbal: Cinematic Audio Source Separation Dataset Containing Non-Verbal Sounds: Takuya Hasumi, Yusuke Fujita; The 26th Annual Conference of the International Speech Communication Association (INTERSPEECH 2025); August 21, 2025

CONFERENCE (INTERNATIONAL)
Language-Guided Contrastive Audio-Visual Masked Autoencoder with Automatically Generated Audio-Visual-Text Triplets from Videos: Yuchi Ishikawa, Shota Nakada, Hokuto Munakata, Kazuhiro Saito, Tatsuya Komatsu, Yoshimitsu Aoki (Keio University); The 26th Annual Conference of the International Speech Communication Association (INTERSPEECH 2025); August 19, 2025

CONFERENCE (INTERNATIONAL)
Leveraging Unlabeled Audio for Audio-Text Contrastive Learning via Audio-Composed Text Features: Tatsuya Komatsu, Hokuto Munakata, Yuchi Ishikawa; The 26th Annual Conference of the International Speech Communication Association (INTERSPEECH 2025); August 17, 2025

JOURNAL (INTERNATIONAL)
A-UVI: GNSS-Assisted EO-based UV Index Estimation Method for Individual-level Precise UV Exposure Assessment: Yuuki Nishiyama (The University of Tokyo), Subaru Atsumi (The University of Tokyo), Kota Tsubouchi, Kaoru Sezaki (The University of Tokyo); The Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies (IMWUT); June 25, 2025

CONFERENCE (INTERNATIONAL)
Language-based Audio Moment Retrieval: Hokuto Munakata, Taichi Nishimura, Shota Nakada, Tatsuya Komatsu; 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2025); April 11, 2025

CONFERENCE (INTERNATIONAL)
Music Tagging with Classifier Group Chains: Takuya Hasumi, Tatsuya Komatsu, Yusuke Fujita; 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2025); April 10, 2025

CONFERENCE (INTERNATIONAL)
DETECLAP: Enhancing Audio-Visual Representation Learning with Object Information: Shota Nakada, Taichi Nishimura, Hokuto Munakata, Masayoshi Kondo, Tatsuya Komatsu; 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2025); April 08, 2025

OTHERS (DOMESTIC)
Classifier chains によりタグ間の依存を考慮した音楽タグづけ: 蓮実拓也, 小松達也, 藤田雄介; 日本音響学会 2025年春季研究発表会 (ASJ 2025 spring); March 19, 2025

CONFERENCE (DOMESTIC)
マルチモーダル共感的対話音声合成に向けたコーパスの構築: 齋藤佑樹 (東京大学), 陳晋升 (東京大学), 楊棟 (東京大学), 丹治尚子 (東京大学), 土井啓成, 白旗悠真, 朴炳宣, 橘健太郎, 猿渡洋 (東京大学); 日本音響学会 2025年春季研究発表会 (ASJ 2025 spring); March 17, 2025

CONFERENCE (INTERNATIONAL)
ReMoGPT: Part-Level Retrieval-Augmented Motion-Language Models: Qing Yu, Mikihiro Tanaka, Kent Fujiwara; The 39th Annual AAAI Conference on Artificial Intelligence (AAAI-25); March 01, 2025