Skip to content

pfnet-research/japanese-simpleqa

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Japanese SimpleQA

Japanese SimpleQAは、SimpleQAの日本語版として構築された、日本語における事実に基づく回答能力(事実性)を評価するベンチマークです。

評価方法

まず、japanese_simpleqa/generate以下のscriptで回答を生成します。

$ PYTHONPATH=. python japanese_simple_qa/generate/run_vllm.py --model "Qwen/Qwen3-8B" --out-dir /tmp/output --qwen3-nothink
...

生成した回答に対し、japanese_simpleqa/evaluate以下のscriptで評価を行います。

$ PYTHONPATH=. python japanese_simpleqa/evaluate/run_vllm.py --model "Qwen/Qwen3-8B" --dir /tmp/output/
...

/tmp/output/result.jsonに評価指標が、/tmp/output/evaluation.jsonlに各問題に対する評価結果が保存されます。

Citation

準備中


Built with PLaMo

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages