我希望微调mPLUG-Video (BloomZ-7B),用来做中文视频理解任务。
但是我看到mPlug-owl的仓库中,第一代模型没有针对视频理解任务做出指令微调的相关解释,第三代模型给出了解释,但是和ms-swift的库版本不匹配,model_type没有被正确找到。
我使用的微调指令是(ms-swift版本更新了,老版本里面的model_id_or_pth这一参数不能继续传入了,但是model_type没有被swift库正确识别):
CUDA_VISIBLE_DEVICES=1 NPROC_PER_NODE=1
swift sft
--model_type mplug-owl3-7b-chat
--model /media/pc3048/8e92fcae-9dcb-48b7-818b-82c5f8ed050e/aidata/qkchen/video-caption/pretrained_model/mplug
--sft_type lora
--dataset /media/pc3048/8e92fcae-9dcb-48b7-818b-82c5f8ed050e/aidata/qkchen/database/breast/training_set.json1
--val_dataset /media/pc3048/8e92fcae-9dcb-48b7-818b-82c5f8ed050e/aidata/qkchen/database/breast/validation_set.json1
--deepspeed default-zero2
--output_dir output
--num_train_epochs 5 \
这一模型的定义文件里面写model的type是mPlug-Owl,请问能否就该模型如何在视频理解数据集上指令微调做进一步的解释或者指导呢?