Publications

CONFERENCE (DOMESTIC) Renga Block: Q-grams Blocking を用いた 高速名寄せ・高速テキストクラスタリングの実装

山城 颯太

言語処理学会第32回年次大会 (NLP2026)

March 09, 2026

名寄せ(Entity Resolution)のサブタスクとして,大量の表記集合のうち確実に同一エンティティを指さない表記ペアを比較対象から除外するEntity Blockingが広く研究されている. 本研究はQ-grams Blockingに着目し,Zipf則と分布仮説を考慮したシンプルなアルゴリズムを構築することで,高速かつ高精度な名寄せが実現できることを確認した. また,同アルゴリズムを文書集合に対して適用することで,高速かつ高精度なテキストクラスタリングが実現できることを確認した.

Paper : Renga Block: Q-grams Blocking を用いた 高速名寄せ・高速テキストクラスタリングの実装open into new tab or window (external link)