Open
Description
您好,我想请教一下关于FIM任务的训练方式以及数据构造,我先讲一下我目前的做法吧。
我目前是将更大规模的Coder模型FIM补全生成的结果中实际用户(指定某一部分的用户,C、C++)使用并accept的数据作为训练数据,使用Qwen2.5-Coder-7B来训练,训练数据大约1w条左右(只有C、C++的),评估数据约500条,然后采用Qwen的Chat Template来进行lora微调,最终通用生成指标都比较高(bleu和rouge),对比评估数据的label发现也没什么问题,实际部署上去发现Qwen2.5-Coder-7B-sft的补全接受率比原版的Qwen2.5-Coder-7B接受率还低一点,请问我这种训练方式存在什么问题?或者您是否有什么好的建议吗?
***** predict metrics *****
predict_bleu-4 = 85.0577
predict_model_preparation_time = 0.0044
predict_rouge-1 = 91.14
predict_rouge-2 = 85.1151
predict_rouge-l = 89.8826
predict_runtime = 0:02:54.48
predict_samples_per_second = 2.734
predict_steps_per_second = 0.172
Metadata
Metadata
Assignees
Labels
No labels