关于 Qwen2-1.5B + Whisper-large-v3-turbo 配置训练问题咨询

  大神作者们您们好， 
  我是 WEST 项目的使用者，最近在尝试复现您的工作
  目前使用 examples/aishell/asr 中的范例训练模型遇到一点状况，想要请教一些问题 
  
  成功复现的部分：
  - FireRedASR + Qwen3-1.7B 配置已成功复现，训练正常收敛，WER 达到预期效果。

  遇到问题的配置：
  - 使用 qwen2-1.5b-lora_whisper-large-v3-turbo.json 配置时，训练无法收敛：
    - 训练 4400 steps 后 loss 仍在 1.xx
    - Decode 结果 WER 超过 100%
    - 模型输出与音频内容完全无关，像是 LLM 完全没有"看到"语音输入

  训练环境：
  - 单张 H100
  - 训练 5000 steps

  我的训练设置（run.sh）：
    torchrun --standalone --nnodes=1 --nproc_per_node=$num_gpus west/bin/train.py \
        --model_config_or_dir $model_conf \
        --data_path $data/train.jsonl \
        --output_dir $dir \
        --pack_size 8192 \
        --bf16 True \
        --max_steps $steps \
        --per_device_train_batch_size 1 \
        --per_device_eval_batch_size 1 \
        --gradient_accumulation_steps 4 \
        --save_strategy "steps" \
        --save_steps 100 \
        --save_total_limit 100 \
        --learning_rate 3e-4 \
        --weight_decay 0.01 \
        --adam_beta2 0.95 \
        --warmup_ratio 0.5 \
        --lr_scheduler_type "cosine" \
        --logging_steps 1 \
        --report_to "tensorboard" \
        --gradient_checkpointing \
        --dataloader_num_workers 2 \
        --dataloader_prefetch_factor 10 \
        --ignore_data_skip True \
        --deepspeed conf/ds_config_zero2.json \
        --accelerator_config conf/accelerator_config.json


  请问：
  1. 这个配置是否有特殊的训练参数需要调整？
  2. run.sh 中哪些参数需要修改？
  3. 是否有成功训练此配置的参考设置？
  
  感谢您宝贵的时间！

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于 Qwen2-1.5B + Whisper-large-v3-turbo 配置训练问题咨询 #116

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

关于 Qwen2-1.5B + Whisper-large-v3-turbo 配置训练问题咨询 #116

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions