Publications

CONFERENCE (DOMESTIC) On Approximately Searching for Similar Word Embeddings

菅原 晃平, 小林 隼人, 岩崎 雅二郎

NLP若手の会 第11回シンポジウム (YANS2016)

August 28, 2016

類似する単語の検索は自然言語処理で最も基礎的な操作の一つである。また近年、分散表現と呼ばれる連続値のベクトル表現を獲得する手法が盛んに研究されている。しかし、検索の高速化が困難な高次元ベクトルとなる分散表現の類似単語検索を考えた研究はこれまでにはなかった。そこで我々は、単語の近似k最近傍検索について空間インデックスを用いて分散表現上で高精度かつ高速に検索できる手法を調査した。我々は空間インデックスの中で代表的なハッシュ、ツリー、グラフベースの手法を比較した。我々の実験ではグラフベースの手法が最もロバストな性能を示した。加えて、知見としてベクトル正規化がコサイン類似度での探索性能を向上させることやコーパスよりモデルが分布に影響し性能に大きな影響を与えることなどを確認した。

PDF : On Approximately Searching for Similar Word Embeddings