Skip to content

关于Qwen-2.5-Coder 预训练数据集构建方法的问题 #415

Open
@TrishKyrie

Description

@TrishKyrie

我想请教几个问题:

1.Qwen-2.5-Coder 的预训练语料主要来自哪些数据集或数据集类型?这些数据集或数据集类型大致的比例是怎样的?
2.在训练前,是否对这些数据进行了过滤或预处理?如果有的话,具体采用了哪些步骤?
3.是否有相关的文档或指南,可以指导如何复现这一预训练数据集的构建过程?

如果有一些参考资料或者经验分享,非常欢迎推荐!

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions