这是一个使用bigbird_pegasus模型在Databricks Dolly 15k 数据集上进行微调的测试。
BigBird-Pegasus 是基于 BigBird 和 Pegasus 的混合模型,结合了两者的优势,专为处理长文本序列设计。BigBird 是一种基于 Transformer 的模型,通过稀疏注意力机制处理长序列,降低计算复杂度。Pegasus 是专为文本摘要设计的模型,通过自监督预训练任务(GSG)提升摘要生成能力。BigBird-Pegasus 结合了 BigBird 的长序列处理能力和 Pegasus 的摘要生成能力,适用于长文本摘要任务,如学术论文和长文档摘要。
epoch | mindnlp+mindspore | transformer+torch(4060) |
---|---|---|
1 | 2.9176 | 8.7301 |
2 | 2.79 | 8.1557 |
3 | 2.593 | 7.7516 |
4 | 2.4875 | 7.5017 |
5 | 2.3831 | 7.2614 |
6 | 2.2631 | 7.0559 |
7 | 2.2369 | 6.8405 |
8 | 2.1732 | 6.7297 |
9 | 2.1717 | 6.7136 |
10 | 2.1833 | 6.6279 |
epoch | mindnlp+mindspore | transformer+torch(4060) |
---|---|---|
1 | 2.6390955448150635 | 6.3235931396484375 |
实现了bigbird_pegasus模型在google/Synthetic-Persona-Chat数据集上的微调实验。
epoch | mindnlp+mindspore | transformer+torch(3090) |
---|---|---|
1 | 0.1826 | 7.6556 |
2 | 0.1614 | 0.5960 |
3 | 0.1435 | 0.4145 |
4 | 0.1398 | 0.3022 |
5 | 0.1344 | 0.2555 |
6 | 0.1263 | 0.2357 |
7 | 0.1200 | 0.2247 |
8 | 0.1147 | 0.2166 |
9 | 0.1105 | 0.2107 |
10 | 0.1082 | 0.2075 |
epoch | mindnlp+mindspore | transformer+torch(3090) |
---|---|---|
1 | 0.2397 | 0.8738 |
2 | 0.2451 | 0.4804 |
3 | 0.2530 | 0.3490 |
4 | 0.2548 | 0.2861 |
5 | 0.2595 | 0.2669 |
6 | 0.2663 | 0.2612 |
7 | 0.2690 | 0.2545 |
8 | 0.2755 | 0.2526 |
9 | 0.2791 | 0.2519 |
10 | 0.2831 | 0.2510 |
11 | 0.2831 | 0.2510 |