Publications
CONFERENCE (DOMESTIC) 日本語GPTを用いたトークナイザの影響の調査
井上 誠一 (LINE/東京都立大学), Nguyen Tung, 中町 礼文, 李 聖哲, 佐藤 敏紀
言語処理学会第28回年次大会 (NLP 2022)
March 14, 2022
本研究では,大規模言語モデルである日本語 GPT を用いて,Byte-level Byte Pair Encoding トークナイザの構築方法や語彙サイズの違いによる言語モデルの性能を比較し分析した.具体的には,日本語テキストを対象としたトークナイザ構築において,トークナイザの構築に用いるテキストの事前分割,トークナイズ時の分かち書きの有無,語彙サイズという観 点で調査を行った.
Paper : 日本語GPTを用いたトークナイザの影響の調査 (external link)