HarvestText Versions Save

文本挖掘和预处理工具(文本清洗、新词发现、情感分析、实体识别链接、关键词抽取、知识抽取、句法分析等),无监督或弱监督方法

V0.8

3 years ago

这次更新在三个方面做了一些改进的探索:

  • 可维护性:原来的实现中,主文件中的HarvestText类集合了太多函数以致于过于冗长(1407行),这次使用Mixin设计模式做了小幅重构,将不同主题的高层模块的功能分散到不同的文件中,将主文件瘦身到791行。同时调整了一下调用层级相对更加容易维护
  • 可拓展性:参考scikit-learn等可以下载外部资源的库的设计,实现了下载器,在不使得库的大小膨胀的情况下引入更多资源。目前仅引入了jiaba词典,来改进新词发现 https://github.com/blmoistawinde/HarvestText/issues/24 , 未来或许可以用这种方式引入更多语料和模型
  • 可信性:对于用到的机器学习算法,没有参考数据集上的评测结果会让人对它的可能表现心里没数,不能够信任。所以这次为新实现的关键词抽取算法做了这样一份benchmark

V0.7.2

4 years ago

较上次release已经一年啦,这段时间内已经更新了很多版本增加了一些新功能,主要包括:

  • 各种文本清洗
    • 微博格式去除,URL字符正则化,HTML标签去除等
  • 命名实体识别
    • 并基于命名实体识别,实现了一个实体发现与别名自动挖掘(实验性)
  • 实体拼写错误识别(entity_linking中指定参数,来自动发现)
  • 依存句法分析
  • 事件三元组抽取(实验性)
  • 文本自动分段Texttile算法(实验性)

并且调整了一些旧的API,使其使用更加方便或灵活。

详情可看现在的README,还有新增的API文档

继续用HarvestText在文本中收获果实吧!

V0.4.1

5 years ago