感谢很有启发性的工作,但是我在复现的时候遇到了几个问题,希望解答一下: 1. ReasonFlux-PRM的loss计算如下: <img width="1696" height="160" alt="Image" src="https://github.com/user-attachments/assets/98b69fc3-55f8-478b-9dec-a2749f303a9e" /> 请问final loss是如何计算的?训练集的数据格式是否如下: Q + Step_1 + <extract_0> + Step_2 + <extract_0> + ... ... + Step_T + <extract_0> 但是我想知道的是final loss是在哪里计算的loss? 2. Inference时候的数据格式? 我使用了论文中贴出的case study输入进开源的PRM-7B模型中时,无法给出论文中演示的step-level reward分数。请展示一个inference的数据格式是否可行? 还有一个疑惑对于 Trajectory-leval 的reward是如何计算的? 论文中好像没有提到。