请问R1V2中的MPO数据集是如何构造的呢

很不错的工作，关于文中的MPO，有几个问题想请教一下：
1、数据是MMPR数据集还是另外构造的呢，具体构成是什么样的呢
2、MPO用的数据集是带思考过程的吗
3、Skywork-VL reward model是用于构造chosen和reject的吗