作者您好,我在R1-searcher中发现,模型在hotpotqa上的的指标分数,AccR是0.654,AccL更高达0.750,文章中有说明AccR是模型的Covered exact match分数,AccL是大模型评分。 <img width="1053" height="173" alt="Image" src="https://github.com/user-attachments/assets/2166a9f4-56ce-4f44-a337-56225ad373ec" /> <img width="1062" height="918" alt="Image" src="https://github.com/user-attachments/assets/695455b7-3abd-4170-b51d-571bd550517e" /> 但是在您的新文章R1-searcher++中,R1-searcher模型的f1 score和Lasj得分仅有0.60和0.62。 <img width="1154" height="489" alt="Image" src="https://github.com/user-attachments/assets/796168ed-5d65-492a-98da-a9a324be0ab4" /> 其中是出现了什么错误或者使用的测试集大小有不同吗?我应该以哪篇论文为准呢?