Skip to content

关于R1系列<模块重组>的几点疑问 #27

@sinpy1117

Description

@sinpy1117

skywork团队你好,非常感谢能看到贵团队富有创造力的工作,有几点疑问想请教一下:

  1. V2技术报告3.1提到的模块重组,这里是否进行了mlp module的对齐训练?还是说如报告中提到的'eliminate SFT stage',完全摒弃了任何形式的监督训练,以一个随机初始化的projector来进行后续mpo+grpo呢?

  2. 第一个问题的延续,V1报告中披露了三阶段对齐训练使用了2M数据,这是一个远远小于主流VLM在对齐阶段的数据量,且重组后能达到60.2的MMMU分数(比llava-ov-72b公布的分数高,数据量仅有它的1/4)。我好奇的是:1) 这个收益是源自对齐训练本身还是源自从32b-ins到32b-distill的重组?2) 其他通用视觉理解、感知任务的性能有观察么?例如chart/ocr等。因为有可能这种重组会导致在通用任务上出现很大的视觉幻觉 3) 不知道是否方便透露2M数据的大致构成,从分数上看,这个数据的训练效率比onevision的要高很多

最后还是感谢贵组的工作提供了很多研究探索思路!

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions