Publications

CONFERENCE (DOMESTIC) 多角的な名寄せに基づく大規模Eコマースデータセットの構築

山下 郁矢, 土井 賢治, 西村 修平

第28回 画像の認識・理解シンポジウム MIRU2025​ (MIRU2025)

July 31, 2025

現代のEコマース環境では,製品が販売者やプラットフォームによって多様な画像やタイトルで出品され,情報の集約が大きな課題となっている.本研究では,この課題を解決するため,テキスト・画像・メタデータなど多角的な情報を統合的に活用した8段階の名寄せパイプラインを提案する.本パイプラインは,テキスト・画像特徴量による類似性マッチング,JANコードのメタデータ活用,カテゴリフィルタリング,CLIP Scoreフィルタリング,物体検出ベースの検証フィルタなどの多様なプロセスを段階的に適用し,高精度な名寄せを実現する.評価実験では,構築したデータセットを用いて学習した製品認識モデルが,従来の単一識別子ベースのデータセットと比較して最大11.8%の性能向上を達成し,データセット品質とモデル性能の双方で有効性を示した.

PDF : 多角的な名寄せに基づく大規模Eコマースデータセットの構築