Publications
カンファレンス (国内) Japanese MT-bench++: より自然なマルチターン対話設定における大規模日本語ベンチマーク
植松 拓也 (早稲田大学), 福田 創 (早稲田大学), 河原 大輔 (早稲田大学), 柴田 知秀
NLP若手の会 第19回シンポジウム (YANS2024)
2024.9.6
大規模言語モデル(LLM)の能力を網羅的に評価するのは大変難しい課題である。LLMのベンチマークの一つに、マルチターンの対話的タスク遂行能力を評価するMT-benchがあり、日本文化に合うように改編されたJapanese MT-benchも構築されている。しかし、これらのデータセットは80問と小規模であることと、2ターン目の質問が1ターン目の回答に依存していないという問題点がある。我々はクラウドソーシングを用いることにより、数千問程度まで大規模化し、より広範に評価を行えるベンチマークを構築する。1ターン目の質問はワーカー、回答はワーカーとLLMによって作成することにより、多様な回答を得る。2ターン目の質問を作成する際は1ターン目の各回答に対して作成し、より自然な対話設定となるようにする。