検索における分散表現を用いた類似度定量化 - LINEヤフーの研究開発

Publications

カンファレンス (国内) 検索における分散表現を用いた類似度定量化

齋藤祐樹, 田頭幸浩, 小野真吾, 田島玲

第8回データ工学と情報マネジメントに関するフォーラム (DEIM2016)

2016.2.29

情報検索のタスクにおいてクエリとドキュメントの類似度は検索精度に大きく影響を与える重要な指標の 1 つである. 一般的に, クエリとドキュメントの類似度として局所表現を利用し各単語に次元を割り当て, その各次元の重みを元にスコアを計算する手法が用いられる. 局所表現に基づく指標は疎性を利用して高速に計算できる一方, 言い換えや略記表記などクエリに含まれる文字列を明示的に含まないドキュメントに対して適切に評価を行うことが難しい. これは多様な商品名や型番が用いられる商品検索においては, 特に課題となっている. 本稿では単語を分散表現として扱い, 分散表現から得られる類似度をクエリとドキュメント間の類似度を表わす指標として用いる手法を提案する. 具体的にはクエリとドキュメントそれぞれに含まれる単語の分散表現の和を取り, それらのコサイン類似度を計算する. そのコサイン類似度をクエリとドキュメント間の類似度とし, 得られた類似度と既存の特徴量からランク学習によって予測モデルを学習する. このクエリとドキュメント間の類似度は意味的な近さを考慮したものとなっている. Yahoo!ショッピングの検索ログを用いて予測精度の評価を行い提案手法の有効性を検証した.

PDF : 検索における分散表現を用いた類似度定量化