Publications
カンファレンス (国内) 入力の分割単位について頑健な言語モデルの構築
清野 舜, 高瀬 翔, 李 聖哲, 佐藤 敏紀
言語処理学会第29回年次大会 (NLP 2023)
2023.3.13
本研究では、事前訓練に必要な計算資源の削減を目的として、文字とサブワード単位の両方を利用可能な言語モデルの構築に取り組む。既存のサブワード正則化技術を応用することで、文字とサブワード を同時に用いた言語モデルの事前訓練を実現する。実験では、BERTの事前訓練を題材として手法の効果を検証する。
Paper : 入力の分割単位について頑健な言語モデルの構築 (外部サイト)