Publications

CONFERENCE (DOMESTIC) Japanese MT-bench++: より自然なマルチターン対話設定における大規模日本語ベンチマーク

植松 拓也 (早稲田大学), 福田 創 (早稲田大学), 河原 大輔 (早稲田大学), 柴田 知秀

NLP若手の会 第19回シンポジウム (YANS2024)

September 06, 2024

大規模言語モデル(LLM)の能力を網羅的に評価するのは大変難しい課題である。LLMのベンチマークの一つに、マルチターンの対話的タスク遂行能力を評価するMT-benchがあり、日本文化に合うように改編されたJapanese MT-benchも構築されている。しかし、これらのデータセットは80問と小規模であることと、2ターン目の質問が1ターン目の回答に依存していないという問題点がある。我々はクラウドソーシングを用いることにより、数千問程度まで大規模化し、より広範に評価を行えるベンチマークを構築する。1ターン目の質問はワーカー、回答はワーカーとLLMによって作成することにより、多様な回答を得る。2ターン目の質問を作成する際は1ターン目の各回答に対して作成し、より自然な対話設定となるようにする。