AIエージェントのツール呼び出しを評価するためのデータセットです。本データセットは,JMultiWOZを加工することで構築しており、4,246 対話に含まれるユーザ発話 31,303 発話に対して、合計 16,510 個のツール呼び出しが付与されています。
jmultiwoz_tc_input.json をモデル入力に用い、モデルが生成したツール呼び出しを jmultiwoz_tc_ground.json と比較して評価します。
JMultiWOZ-TC_data.zip を解凍すると、以下のディレクトリが展開されます。
JMultiWOZ-TC_data/
├── jmultiwoz_tc_input.json # 評価入力(ユーザ発話・コンテキスト)
└── jmultiwoz_tc_ground.json # 正解ツール呼び出し(評価用アノテーション)jmultiwoz_tc_input.json: モデルがツール呼び出しを推定するための入力(ユーザ発話や対話コンテキスト)。jmultiwoz_tc_ground.json: 対応する正解のツール呼び出しアノテーション(評価指標算出に使用)。
- 評価用のスクリプトは2026年3月上旬に公開予定です
JMultiWOZ-TC データは Creative Commons Attribution 4.0 International (CC BY 4.0) で公開します。
詳細: https://creativecommons.org/licenses/by/4.0/
JMultiWOZ-TCは、JMultiWOZ に基づく対話データをツール呼び出し形式へ再構築した評価用データセットです。
JMultiWOZ GitHub: https://github.com/nu-dialogue/jmultiwoz