数据集问题 #20

young-nlp · 2018-11-05T03:22:57Z

想问一下关于数据集的问题，这个数据集处理后得到的train有577088个句子，但论文里提到的是522611个句子，这是因为原本的数据集的train和test有部分的entity pair重复了。PCNN+ATT这篇论文过滤处理后得到是522611个句子的规模。但在Feng的源代码和您这个代码好像都是直接使用未过滤的。

xuyanfu · 2018-11-05T06:38:54Z

嗯嗯，确实是这样，没有进行过滤。会有一部分entity pair是重复的。

zwd13122889 · 2020-12-15T11:32:25Z

您好，我想问下，为啥我下了之后，origin_data里的train.txt里没有数据，只有一个软件下载的网址，我想问下，我该如何找到训练数据集呢

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

数据集问题 #20

数据集问题 #20

young-nlp commented Nov 5, 2018

xuyanfu commented Nov 5, 2018 •

edited

Loading

zwd13122889 commented Dec 15, 2020

数据集问题 #20

数据集问题 #20

Comments

young-nlp commented Nov 5, 2018

xuyanfu commented Nov 5, 2018 • edited Loading

zwd13122889 commented Dec 15, 2020

xuyanfu commented Nov 5, 2018 •

edited

Loading