Skip to content

ReasonFlux-PRM Reproduce the problem #19

@Amazing-J

Description

@Amazing-J

感谢很有启发性的工作,但是我在复现的时候遇到了几个问题,希望解答一下:

  1. ReasonFlux-PRM的loss计算如下:
Image

请问final loss是如何计算的?训练集的数据格式是否如下:
Q + Step_1 + <extract_0> + Step_2 + <extract_0> + ... ... + Step_T + <extract_0>
但是我想知道的是final loss是在哪里计算的loss?

  1. Inference时候的数据格式?
    我使用了论文中贴出的case study输入进开源的PRM-7B模型中时,无法给出论文中演示的step-level reward分数。请展示一个inference的数据格式是否可行?
    还有一个疑惑对于 Trajectory-leval 的reward是如何计算的? 论文中好像没有提到。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions