Publications

カンファレンス (国内) 元テキストが復元不可能な部分文字列へのラベル付与によるテキスト分類

山下 達雄, 清水 伸幸

言語処理学会第22回年次大会 (NLP2016)

2016.3.7

テキストの分類タスクで学習データとして使用する、 ラベル付与された正解コーパスをクラウドソーシングで作成する際に、 コンプライアンス等の問題によりコーパス自体を外部に出せないケースがある。 本研究では、 テキストを元のテキストが復元不可能なレベルの極大部分文字列に変換し、 外部に出せるようにした上で、 クラウドソーシングでラベル付けタスクを実施し、 その結果をナイーブベイズの確率計算に直接利用する方法を提案した。 この手法により、テキストの一部分に対してのラベル付与のみで、 一般的なテキスト分類タスクの精度に近い値を得ることができた。

PDF : 元テキストが復元不可能な部分文字列へのラベル付与によるテキスト分類