LINEヤフーの研究開発

JP
EN

Publications

マルチモーダル

カンファレンス (国際)

Retrieval of LoRA Models based on Layer-Wise Weight Embedding without Metadata

Yuro Kanada (Shizuoka University), Yuma Oe (Shizuoka University), Huu-Long Pham (University of Tsukuba), Makoto P. Kato (University of Tsukuba), Hiroaki Ohshima (University of Hyogo), Sumio Fujita, Yoshiyuki Shoji (Shizuoka University)

The 16th ACM International Conference on Multimedia Retrieval (ICMR 2026)

2026.6.15
カンファレンス (国際)

Which LoRA Should Be Merged Next? Retrieving an Additional LoRA from a Target Image

Daichi Sugita (Shizuoka University), Huu-Long Pham (University of Hyogo), Makoto P. Kato (University of Tsukuba), Hiroaki Ohshima (University of Hyogo), Sumio Fujita, Yoshiyuki Shoji (Shizuoka University)

The 16th ACM International Conference on Multimedia Retrieval (ICMR 2026)

2026.6.15
カンファレンス (国際)

Causal Motion Diffusion Models for Autoregressive Motion Generation

Qing Yu, Akihisa Watanabe (Waseda University), Kent Fujiwara

The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2026 (CVPR 2026)

2026.6.7
カンファレンス (国際)

ProjFlow: Projection Sampling with Flow Matching for Zero‑Shot Exact Spatial Motion Control

Akihisa Watanabe (Waseda University), Qing Yu, Edgar Simo-Serra (Waseda University), Kent Fujiwara

The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2026 (CVPR 2026)

2026.6.5
その他 (国内)

楽曲の文脈情報理解に向けたマルチモーダル大規模言語モデルによる楽曲同定能力の検討

竹本健悟 (LINEヤフー株式会社/東京大学), 蓮実拓也, Welly Naptali, 和気雅弥, 橘健太郎

音学シンポジウム 2026 (第146回音楽情報科学・第160回音声言語情報処理合同研究発表会)

2026.6.5
カンファレンス (国際)

CASTELLA: Long Audio Dataset with Captions and Temporal Boundaries

Hokuto Munakata, Takehiro Imamura (Nagoya University), Taichi Nishimura, Tatsuya Komatsu

2026 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2026)

2026.5.6
カンファレンス (国内)

ニューラルオーディオコーデック特徴量を用いた音声から話者特有の表情予測モデルの構築及び分析

朴浚鎔 (東京大学), 陳晋升 (東京大学), 土井啓成, 朴炳宣, 白旗悠真, 橘健太郎, 楊棟 (東京大学), 齋藤佑樹 (東京大学), 猿渡洋 (東京大学)

日本音響学会 2026年春季研究発表会 (ASJ 2026 spring)

2026.3.19
カンファレンス (国際)

Shape-N-Motion: Fine-Grained Hand Object Manipulation Recognition with Ultrasonic and IMU

Kaito Fujishige (Institute of Science Tokyo), Kota Tsubouchi, Yuuki Nishiyama (The University of Tokyo), Masamichi Shimosaka (Institute of Science Tokyo)

The 24th International Conference on Pervasive Computing and Communications (PerCom 2026)

2026.3.17
ワークショップ (国際)

CAVIARES: Corpus for Audio-Visual Expressive Voice Agent

Jinsheng Chen (The University of Tokyo), Yuki Saito (The University of Tokyo), Dong Yang (The University of Tokyo), Naoko Tanji (The University of Tokyo), Hironori Doi, Byeongseon Park, Yuma Shirahata, Kentaro Tachibana, Hiroshi Saruwatari (The University of Tokyo)

2025 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU 2025)

2025.12.9
その他 (国際)

CASTELLA: Long Audio Dataset with Captions and Temporal Boundaries

Hokuto Munakata, Takehiro Imamura (Nagoya University), Taichi Nishimura, Tatsuya Komatsu

arXiv.org (arXiv)

2025.11.19
カンファレンス (国際)

DnR-nonverbal: Cinematic Audio Source Separation Dataset Containing Non-Verbal Sounds

Takuya Hasumi, Yusuke Fujita

The 26th Annual Conference of the International Speech Communication Association (INTERSPEECH 2025)

2025.8.21
カンファレンス (国際)

Language-Guided Contrastive Audio-Visual Masked Autoencoder with Automatically Generated Audio-Visual-Text Triplets from Videos

Yuchi Ishikawa, Shota Nakada, Hokuto Munakata, Kazuhiro Saito, Tatsuya Komatsu, Yoshimitsu Aoki (Keio University)

The 26th Annual Conference of the International Speech Communication Association (INTERSPEECH 2025)

2025.8.19
カンファレンス (国際)

Leveraging Unlabeled Audio for Audio-Text Contrastive Learning via Audio-Composed Text Features

Tatsuya Komatsu, Hokuto Munakata, Yuchi Ishikawa

The 26th Annual Conference of the International Speech Communication Association (INTERSPEECH 2025)

2025.8.17
論文誌 (国際)

A-UVI: GNSS-Assisted EO-based UV Index Estimation Method for Individual-level Precise UV Exposure Assessment

Yuuki Nishiyama (The University of Tokyo), Subaru Atsumi (The University of Tokyo), Kota Tsubouchi, Kaoru Sezaki (The University of Tokyo)

The Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies (IMWUT)

2025.6.25
カンファレンス (国際)

Language-based Audio Moment Retrieval

Hokuto Munakata, Taichi Nishimura, Shota Nakada, Tatsuya Komatsu

2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2025)

2025.4.11
カンファレンス (国際)

Music Tagging with Classifier Group Chains

Takuya Hasumi, Tatsuya Komatsu, Yusuke Fujita

2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2025)

2025.4.10
カンファレンス (国際)

DETECLAP: Enhancing Audio-Visual Representation Learning with Object Information

Shota Nakada, Taichi Nishimura, Hokuto Munakata, Masayoshi Kondo, Tatsuya Komatsu

2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2025)

2025.4.8
その他 (国内)

Classifier chains によりタグ間の依存を考慮した音楽タグづけ

蓮実拓也, 小松達也, 藤田雄介

日本音響学会 2025年春季研究発表会 (ASJ 2025 spring)

2025.3.19
カンファレンス (国内)

マルチモーダル共感的対話音声合成に向けたコーパスの構築

齋藤佑樹 (東京大学), 陳晋升 (東京大学), 楊棟 (東京大学), 丹治尚子 (東京大学), 土井啓成, 白旗悠真, 朴炳宣, 橘健太郎, 猿渡洋 (東京大学)

日本音響学会 2025年春季研究発表会 (ASJ 2025 spring)

2025.3.17
カンファレンス (国際)

ReMoGPT: Part-Level Retrieval-Augmented Motion-Language Models

Qing Yu, Mikihiro Tanaka, Kent Fujiwara

The 39th Annual AAAI Conference on Artificial Intelligence (AAAI-25)

2025.3.1

1
2

次のページ

次へ