Free Donut: E2E文書理解モデルにおけるAttentionを用いた文字領域アノテーション不要なテキスト検出手法の提案 - LINEヤフーの研究開発

Publications

カンファレンス (国内) Free Donut: E2E文書理解モデルにおけるAttentionを用いた文字領域アノテーション不要なテキスト検出手法の提案

横尾　修平, Geewook Kim (NAVER), Sukmin Seo (NAVER Cloud), 長内淳樹, 岡本大和, Youngmin Baek (NAVER Cloud)

言語処理学会第29回年次大会 (NLP 2023)

2023.3.13

本稿では，End-to-End（E2E）文書理解モデルをベースとした，文書画像からE2Eにテキスト抽出と言語処理を行う新しいモデルを提案する．従来のモデルはOCRモデルや文書認識モデルといった複数のモデルを組み合わせる必要があったが，E2E文書理解モデルはあらゆる言語処理タスクを単一モデルで扱えて，学習コストを削減することが可能である．一方で，E2E文書理解モデルは明示的な文字検出を行わないため，テキストの位置情報の獲得ができないという問題がある．そこで，テキスト領域にAttentionの注視点が分布するといった特性を利用して，位置アノテーションフリーにテキストの位置情報を獲得する方法を提案する．実験では，提案手法がくずし字認識タスクにおいて高精度な文字認識および位置情報の獲得が可能なことを示した．

自然言語処理

Paper : Free Donut: E2E文書理解モデルにおけるAttentionを用いた文字領域アノテーション不要なテキスト検出手法の提案新しいタブまたはウィンドウで開く（外部サイト）