Publications
カンファレンス (国内) Renga Street: Top-kクエリ処理アルゴリズムによる高速類似文字列検索の実装
山城 颯太
言語処理学会第32回年次大会 (NLP2026)
2026.3.9
類似文字列検索は,あらかじめ与えられた文字列集合のうちから,入力クエリ文字列に類似した文字列集合を返却するタスクであり,古くから研究され続けている. 既存手法の多くは,類似性尺度として編集距離,あるいは文字N-gram素性(Q-gram)のcosine係数やJaccard係数を使用しており,各素性ごとの重みを同一と見なしている. しかし,出現頻度がべき乗則に従う自然言語を対象とする場合は,BM25のように低頻度素性を重視するスコアリング手法を用いることで,文字列同士の比較回数削減と精度向上が見込める. 本研究は類似文字列検索タスクを複数タームに基づくOR検索として定式化し直し,Top-kクエリ処理手法の一つであるMaxScoreアルゴリズムを使用することで,高速かつ正確にTop-k類似文字列が取得できることを確認した.
Paper :
Renga Street: Top-kクエリ処理アルゴリズムによる高速類似文字列検索の実装
(外部サイト)