关于Qwen-2.5-Coder 预训练数据集构建方法的问题

我想请教几个问题：

1.Qwen-2.5-Coder 的预训练语料主要来自哪些数据集或数据集类型？这些数据集或数据集类型大致的比例是怎样的？
2.在训练前，是否对这些数据进行了过滤或预处理？如果有的话，具体采用了哪些步骤？
3.是否有相关的文档或指南，可以指导如何复现这一预训练数据集的构建过程？

如果有一些参考资料或者经验分享，非常欢迎推荐！