-
Notifications
You must be signed in to change notification settings - Fork 14
Description
大神作者们您们好,
我是 WEST 项目的使用者,最近在尝试复现您的工作
目前使用 examples/aishell/asr 中的范例训练模型遇到一点状况,想要请教一些问题
成功复现的部分:
- FireRedASR + Qwen3-1.7B 配置已成功复现,训练正常收敛,WER 达到预期效果。
遇到问题的配置:
- 使用 qwen2-1.5b-lora_whisper-large-v3-turbo.json 配置时,训练无法收敛:
- 训练 4400 steps 后 loss 仍在 1.xx
- Decode 结果 WER 超过 100%
- 模型输出与音频内容完全无关,像是 LLM 完全没有"看到"语音输入
训练环境:
- 单张 H100
- 训练 5000 steps
我的训练设置(run.sh):
torchrun --standalone --nnodes=1 --nproc_per_node=$num_gpus west/bin/train.py
--model_config_or_dir $model_conf
--data_path $data/train.jsonl
--output_dir $dir
--pack_size 8192
--bf16 True
--max_steps $steps
--per_device_train_batch_size 1
--per_device_eval_batch_size 1
--gradient_accumulation_steps 4
--save_strategy "steps"
--save_steps 100
--save_total_limit 100
--learning_rate 3e-4
--weight_decay 0.01
--adam_beta2 0.95
--warmup_ratio 0.5
--lr_scheduler_type "cosine"
--logging_steps 1
--report_to "tensorboard"
--gradient_checkpointing
--dataloader_num_workers 2
--dataloader_prefetch_factor 10
--ignore_data_skip True
--deepspeed conf/ds_config_zero2.json
--accelerator_config conf/accelerator_config.json
请问:
- 这个配置是否有特殊的训练参数需要调整?
- run.sh 中哪些参数需要修改?
- 是否有成功训练此配置的参考设置?
感谢您宝贵的时间!