Publications

CONFERENCE (DOMESTIC) レビューデータからの各次元が意味を持つ Disentangled な映画のベクトル表現の獲得

金田 悠路 (静岡大), 藤田 澄男, 莊司 慶行 (静岡大)

第17回データ工学と情報マネジメントに関するフォーラム(第23回日本データベース学会年次大会) (DEIM 2025)

March 01, 2025

本論文では,文書をベクトル化した際にその各次元が独立して意味を持つようにする,Disentangled Representation を獲得するための手法を提案する.そのために,小規模ニューラルネットワークによる周辺単語予測 タスクに基づく,古典的な埋め込み表現手法獲得を改良した.具体的には,1)モデルの学習時に,周辺単語だけで はなく同時にメタデータも推定するというガイドタスクを同時に解かせる,2)パラメータの更新時に,バッチ内の ベクトルが多変量正規分布に近いかを計算し,損失に加味する,という2つの工夫を施した.実際に文書を各次元が 独立し,意味を持った状態でベクトル化できているかを確認するために,トイ・データと映画レビューデータを対象 にした自動評価と被験者実験を行った.実験結果から,β-VAE などで利用されるKL ダイバージェンスによるベク トルの各次元の独立化手法がdoc2vec のようなシンプルなニューラルネットワークでも有用であると明らかにした.

Paper : レビューデータからの各次元が意味を持つ Disentangled な映画のベクトル表現の獲得open into new tab or window (external link)