Publications

カンファレンス (国内) Japanese MT-bench++: より自然なマルチターン対話設定の日本語大規模ベンチマーク

植松 拓也 (早稲田大学), 福田 創 (早稲田大学), 河原 大輔 (早稲田大学), 柴田 知秀

言語処理学会第31回年次大会 (NLP2025)

2025.3.13

大規模言語モデル(LLM)の能力を網羅的に評価するのは大変難しい課題である。LLMのベンチマークの一つに、マルチターンの対話的タスク遂行能力を評価するMT-benchがあり、日本文化に合うように改編されたJapanese MT-benchも構築されている。しかし、これらのデータセットは80問と小規模であることと、2ターン目の質問が1ターン目の回答に依存していないという問題がある。我々はクラウドソーシングを用いることにより、約5,000問程度にまで大規模化し、より広範に評価を行えるベンチマークを構築する。1ターン目の質問はワーカー、回答はワーカーとLLMによって作成することにより、多様な回答を得る。2ターン目の質問を作成する際は1ターン目の各回答に対して作成し、より自然な対話設定となるようにする。

Paper : Japanese MT-bench++: より自然なマルチターン対話設定の日本語大規模ベンチマーク新しいタブまたはウィンドウで開く (外部サイト)