Publications

CONFERENCE (DOMESTIC) 入力の分割単位について頑健な言語モデルの構築

清野 舜, 高瀬 翔, 李 聖哲, 佐藤 敏紀

言語処理学会第29回年次大会 (NLP 2023)

March 13, 2023

本研究では、事前訓練に必要な計算資源の削減を目的として、文字とサブワード単位の両方を利用可能な言語モデルの構築に取り組む。既存のサブワード正則化技術を応用することで、文字とサブワード を同時に用いた言語モデルの事前訓練を実現する。実験では、BERTの事前訓練を題材として手法の効果を検証する。

Paper : 入力の分割単位について頑健な言語モデルの構築open into new tab or window (external link)