-
Notifications
You must be signed in to change notification settings - Fork 266
Open
Description
skywork团队你好,非常感谢能看到贵团队富有创造力的工作,有几点疑问想请教一下:
-
V2技术报告3.1提到的模块重组,这里是否进行了mlp module的对齐训练?还是说如报告中提到的'eliminate SFT stage',完全摒弃了任何形式的监督训练,以一个随机初始化的projector来进行后续mpo+grpo呢?
-
第一个问题的延续,V1报告中披露了三阶段对齐训练使用了2M数据,这是一个远远小于主流VLM在对齐阶段的数据量,且重组后能达到60.2的MMMU分数(比llava-ov-72b公布的分数高,数据量仅有它的1/4)。我好奇的是:1) 这个收益是源自对齐训练本身还是源自从32b-ins到32b-distill的重组?2) 其他通用视觉理解、感知任务的性能有观察么?例如chart/ocr等。因为有可能这种重组会导致在通用任务上出现很大的视觉幻觉 3) 不知道是否方便透露2M数据的大致构成,从分数上看,这个数据的训练效率比onevision的要高很多
最后还是感谢贵组的工作提供了很多研究探索思路!
Metadata
Metadata
Assignees
Labels
No labels