HarvestText Versions Save

文本挖掘和预处理工具（文本清洗、新词发现、情感分析、实体识别链接、关键词抽取、知识抽取、句法分析等），无监督或弱监督方法

3 years ago

这次更新在三个方面做了一些改进的探索：

可维护性：原来的实现中，主文件中的HarvestText类集合了太多函数以致于过于冗长(1407行)，这次使用Mixin设计模式做了小幅重构，将不同主题的高层模块的功能分散到不同的文件中，将主文件瘦身到791行。同时调整了一下调用层级相对更加容易维护
可拓展性：参考scikit-learn等可以下载外部资源的库的设计，实现了下载器，在不使得库的大小膨胀的情况下引入更多资源。目前仅引入了jiaba词典，来改进新词发现 https://github.com/blmoistawinde/HarvestText/issues/24 , 未来或许可以用这种方式引入更多语料和模型
可信性：对于用到的机器学习算法，没有参考数据集上的评测结果会让人对它的可能表现心里没数，不能够信任。所以这次为新实现的关键词抽取算法做了这样一份benchmark

4 years ago

较上次release已经一年啦，这段时间内已经更新了很多版本增加了一些新功能，主要包括：

并且调整了一些旧的API，使其使用更加方便或灵活。

详情可看现在的README，还有新增的API文档

继续用HarvestText在文本中收获果实吧！

5 years ago