-
Notifications
You must be signed in to change notification settings - Fork 73
Open
Description
您好,当我在同一台8卡的服务器上尝试训练过程时,使用1张卡训练第一个阶段的时候,python3 projects/GLEE/train_net.py --config-file projects/GLEE/configs/images/Stage1_pretrain_openimage_obj365_CLIPfrozen_R50.yaml --num-gpus 1,训练过程正常。但是当使用8张卡的时候,python3 projects/GLEE/train_net.py --config-file projects/GLEE/configs/images/Stage1_pretrain_openimage_obj365_CLIPfrozen_R50.yaml --num-gpus 8,一直训练不起来,但是每张卡显存都占用了2800M左右,没有任何日志输出,是多卡训练需要设置什么参数,或者配置什么吗?
Metadata
Metadata
Assignees
Labels
No labels