Skip to content

TopicRank 实现 #23

@JiaxiangBU

Description

@JiaxiangBU

描述你想要的功能
能够提供具体例子更好

TextRank 得到的是摘要性的句子而非短语,TopicRank 可以实现这一点,这算一个新功能。
而且从 paper 的对比试验来看,短语抽取是比 TextRank 会更高些(作者对比可英文和法语)。

是否有自己想过的可能解决方案?

其实有解决方案了,见 pke,但是这个包实在是太多 bug 了

  1. 基本上是依赖包各种问题(nltk),要么就是一些浮动值计算的bug,如ZeroDivisionError: float division by zero,这里gap不做极端例子的处理, self.graph[i][j]['weight'] += 1.0 / gap
  2. 整个包我看了,不支持中文,只支持英文和其他几种外语,如果要强用中文,需要自己手动分词等按照英文的方式去套用模型,这个在中文文本数据处理有点违背初衷了。
  3. 我有一些准备,基本上 paper 我看了,idea 大概比较清楚,这有一些 notes,实现上,我还在考虑,基本上其实可以参考一些 pke 的底层函数。

其他想说的

也想看看项目开发者的想法,比如这个需求有没有必要做。

Metadata

Metadata

Assignees

No one assigned

    Labels

    enhancementNew feature or request

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions