关于添加新的token进tokenizer进行lora微调但是推理不输出新添加token的问题 #8533
Replies: 1 comment
-
|
相同的问题,请问解决了吗 |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
Uh oh!
There was an error while loading. Please reload this page.
-
在给llama3、qwen2.5模型tokenizer添加新的token进行lora微调时,我明确已经通过以下方式添加了special token或者普通token


然后resize了model的embedding
并以随机初始化和均值初始化都进行了尝试,构造的数据集中包含添加的token。
训练后损失能够降低至0.3,直接加载lora权重/merge权重推理时能生成待生成的文本,但文本不是这个新添加的单独token解码出来的,而是仍然按照分词依次生成的(设置为special token时也是一样)。
请问这是为什么啊?例如训练代码这个token被mask了没有计算损失,或者推理代码这个token被skip了?或者其他原因?
感谢各位大佬的不吝赐教。
Beta Was this translation helpful? Give feedback.
All reactions