预训练语料 本项目使用的预训练包含 CLUECorpusSmall、中英文翻译数据、News Commentary v13 和中文科学文献数据 CSL。 下载语料后,合并到一个 .txt 文件并按行随机打乱,语料格式如下: doc1 doc2 doc3