如果不用无推理能力的llm $$f_{l}^{s}$$ 先进行initial,而直接使用$$f_{l}$$sft以及后续过程的结果是怎样的呢?以及为什么这样直接迁移会取得比较好的性能,请问如何来解释这个现象呢?