Publications

カンファレンス (国内) 入力の分割単位について頑健な言語モデルの構築

清野 舜, 高瀬 翔, 李 聖哲, 佐藤 敏紀

言語処理学会第29回年次大会 (NLP 2023)

2023.3.13

本研究では、事前訓練に必要な計算資源の削減を目的として、文字とサブワード単位の両方を利用可能な言語モデルの構築に取り組む。既存のサブワード正則化技術を応用することで、文字とサブワード を同時に用いた言語モデルの事前訓練を実現する。実験では、BERTの事前訓練を題材として手法の効果を検証する。

Paper : 入力の分割単位について頑健な言語モデルの構築新しいタブまたはウィンドウで開く (外部サイト)