基于Pytorch编写的深度学习训练框架,可以在此基础上进行算法开发与调试。支持从配置文件和控制台读取参数并融合,保存训练超参,根据gitignore打包保存训练时代码为压缩包,支持单GPU、DP、DDP模式训练。支持保存检查点并从检查点中恢复训练,防止意外中断无法恢复。
- yaml配置文件和控制台读取超参
- 根据gitignore打包保存实验开始时代码为压缩包,防止代码改动太大实验无法复现
- 支持CPU、单GPU、DP、DDP模式训练
- 智能打印log,只在master节点打印正常log
- 支持early stopping
- 可选每轮保存检查点和只保存最后检查点
- 支持从检查点恢复训练,防止训练以外中断无法恢复