楽曲の文脈情報理解に向けたマルチモーダル大規模言語モデルによる楽曲同定能力の検討 - LINEヤフーの研究開発

Publications

その他 (国内) 楽曲の文脈情報理解に向けたマルチモーダル大規模言語モデルによる楽曲同定能力の検討

竹本健悟 (LINEヤフー株式会社/東京大学), 蓮実拓也, Welly Naptali, 和気雅弥, 橘健太郎

音学シンポジウム 2026 (第146回音楽情報科学・第160回音声言語情報処理合同研究発表会)

2026.6.5

マルチモーダル大規模言語モデルは，音響キャプショニングにおいて有効性が報告されている一方で，入力音源がどの楽曲であるかを識別し，その楽曲に関するメタデータなどの文脈情報に基づいて説明を行うことは難しい．音楽推薦やプレイリスト生成などの実応用では，音響情報だけでなく文脈情報も踏まえた楽曲理解が重要である．本研究では，楽曲の文脈情報を含めた包括的な理解に向けて，マルチモーダル大規模言語モデルが楽曲同定能力と文脈に基づく説明能力を獲得できるかを分析する．楽曲数およびモデルサイズを変化させた実験により，楽曲同定能力のスケーリング特性を分析する．さらに，音響キャプショニングおよび多様な文脈情報記述からなる指示データセットを構築し，これを用いた複数課題の同時学習によって，文脈情報に基づく説明能力の獲得効果を検証する．その結果，マルチモーダル大規模言語モデルが楽曲識別と文脈理解を一定程度獲得できること，ならびに文脈情報の学習が楽曲の包括的な理解の向上に有効であることを示す．

マルチモーダル

Paper : 楽曲の文脈情報理解に向けたマルチモーダル大規模言語モデルによる楽曲同定能力の検討新しいタブまたはウィンドウで開く（外部サイト）