关于基于NTK的超长上下文支持 #23
Replies: 7 comments 12 replies
-
如何在预训练阶段训练超长文本呢?如果文本长度是8192,block-size=512,那么这条文本会被切分成16个分片做语言模型训练么? |
Beta Was this translation helpful? Give feedback.
-
请问这个 NTK-scale 的方法,有没有测过 passkey retrieval 的任务?只是 PPL 不降,并不一定说明模型能够利用超长距离上下文的信息。 |
Beta Was this translation helpful? Give feedback.
-
有了这个参考数据非常重要!
|
Beta Was this translation helpful? Give feedback.
-
您好,对比了您NTK的代码与llama2的代码,当默认AUTO_COEFF=1.0时候,您的代码相当于llama2中scaling factor=2.0。请问llama2中的scaling factor如何理解呢?我看您那边相当于固定为2.0了。 |
Beta Was this translation helpful? Give feedback.
-
|
Beta Was this translation helpful? Give feedback.
-
为啥不使用RoPe呢 我看好多模型都用了这个 |
Beta Was this translation helpful? Give feedback.
-
建议研发人员 在训练的时候可以在增加一下数据量 200G的语料训练有点不太够 |
Beta Was this translation helpful? Give feedback.
-
我们在
attn_and_long_ctx_patches.py
实现了基于NTK的自适应上下文适配方法,其中基于transformers的推理脚本、gradio demo以及OpenAI API均调用了该方法。AUTO_COEFF
默认为1.0以下是不同
AUTO_COEFF
下,在不同上下文长度上的PPL变化(越低越好),供使用参考。对NTK方法熟悉的用户可直接修改代码中的
ALPHA
取值。以上结果仅供参考,应在实际场景中测试调整
AUTO_COEFF
或者ALPHA
取值。Beta Was this translation helpful? Give feedback.
All reactions