Publications

カンファレンス (国内) ウェブ検索クエリのための部分一致文字列に対するエンティティ名称予測モデルの提案

豊田 樹生, 小松 広弥, 熊谷 賢, 菅原 晃平

言語処理学会第27回年次大会

2021.3.16

ウェブ検索クエリの多くには部分一致文字列が含まれている.例えば,クエリ “かぐや様” はエンティティ名称 “かぐや様は告らせたい~天才たちの恋愛頭脳戦~” に対する部分一致文字列である. しかし,検索クエリとして発行された部分一致文字列が,ウェブページに対するクリック回数がわずかか,またはゼロのテイルクエリである場合は,フィードバックを取得することが困難になる.こういったテイルクエリに対してもエンティティリンキングを適切に行えるようにすることは検索性能の高いシステムを作るうえでとても重要である. そこで,本研究では,エンティティリンキングの構成要素のひとつとして,ウェブ検索クエリのための部分一致文字列に対するエンティティ名称予測モデルを提案し,次のような貢献を行う: (i)ブロッキングを用いた大規模分散処理のための効率的な訓練事例の自動生成方法を提案する. (ii)名称予測モデルのための新たな素性を提案する. (iii)フィードバックの取得できない事例に対するPU(Positive Unlabelled) 学習を用いたラベリング手法を提案する. (iv)比較実験において,Random Forestの予測値とクリック頻度に基づくモデルの予測値を線形補間により組み合わせることで,nDCG@5 の観点で高い性能を達成したことを示す.

Paper : ウェブ検索クエリのための部分一致文字列に対するエンティティ名称予測モデルの提案新しいタブまたはウィンドウで開く (外部サイト)