很不错的工作,关于文中的MPO,有几个问题想请教一下: 1、数据是MMPR数据集还是另外构造的呢,具体构成是什么样的呢 2、MPO用的数据集是带思考过程的吗 3、Skywork-VL reward model是用于构造chosen和reject的吗