HanLP Versions Save

Natural Language Processing for the next decade. Tokenization, Part-of-Speech Tagging, Named Entity Recognition, Syntactic & Semantic Dependency Parsing, Document Classification

v1.6.5

5 years ago

Pre-release测试版

  1. 重构Nature枚举为类,避免反射,兼容最新JDK:https://github.com/hankcs/HanLP/issues/866
  2. 新增感知机分类器,基于此实现人名性别识别
  3. 新增一阶、二阶HMM
  4. 新增中文分词评测工具
  5. 支持使用环境变量HANLP_ROOT来代替hanlp.properties中的root
  6. IOUtil读取空白文件时的稳定性,兼容 UTF8 file with BOM
  7. IOUtil.loadDictionary支持标记整个词典的默认词性
  8. DoubleArrayTrieSegment和AhoCorasickDoubleArrayTrieSegment支持构造自词典路径
  9. 修正感知机词法分析器在不进行命名实体识别时对字符的正规化 @wangzhe258369
  10. 微调人名识别模型、删除错误词条
  11. 修订CharTable,删除橙子和橘子的不合理的转换 @linuxsong
  12. 数据包 data-for-1.6.4.zip md5=8b5b944f89c4052d0552bf8ad7479010 获取最新版的数据包,请forkgit clone一份仓库中的最新data。
  13. Portable版同步升级到v1.6.5
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.5</version>
        </dependency>

:tada:感谢所有在issue中提出宝贵建议的用户!

v1.6.4

6 years ago
  1. 优化CorpusLoader、优化MutableFeatureMap的设计
  2. 优化新词发现,使结果不含分隔符:https://github.com/hankcs/HanLP/issues/826
  3. TextRank提取关键词提升算法速度 @hlstudio
  4. 用户词典热更新时支持.csv @patrick_lin
  5. 增强词向量读取时的健壮性:https://github.com/hankcs/HanLP/issues/821
  6. 根据百度汉语和在线辞海修正拼音词典 @AnyListen
  7. 修订停用词词典 @duohappy
  8. 修复词法分析器禁用用户词典时发生的问题、修复词法分析器seg接口与命名实体识别的配合问题:https://github.com/hankcs/pyhanlp/issues/15#issuecomment-382583304 、修正结构化感知机多线程平均的问题
  9. 微调人名识别模型、新增月份词汇
  10. 数据包 data-for-1.6.4.zip md5=8b5b944f89c4052d0552bf8ad7479010 获取最新版的数据包,请forkgit clone一份仓库中的最新data。
  11. Portable版同步升级到v1.6.4
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.4</version>
        </dependency>

:tada:感谢所有在issue中提出宝贵建议的用户!

v1.6.3

6 years ago
  1. 词法分析器支持CustomDictionary.insert动态插入的用户词条
  2. 词法分析器支持用户词典中的自定义词性
  3. 词法分析器支持enableCustomDictionaryForcing提高用户词典优先级
  4. NLPTokenizer默认使用感知机词法分析器
  5. 完善圆圈数字对应关系 @AnyListen
  6. 开放命名实体识别的特征提取方法
  7. TextRankKeyword使用CoreStopWordDictionary的过滤器
  8. 删除人名识别中的BXD模式,优化日本人名识别
  9. 修复ViterbiSegment激活多个配置项带来的问题
  10. 微调bigram、微调人名识别模型
  11. 数据包兼容 data-for-1.6.2.zip md5=3ebb9e47ecff740f09c9ec7c21324661 获取最新版的数据包,请forkgit clone一份仓库中的最新data。
  12. Portable版同步升级到v1.6.3
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.3</version>
        </dependency>

:tada:感谢所有在issue中提出宝贵建议的用户!

v1.6.2

6 years ago
  1. 所有词法分析器都支持用户词典、简繁、offset与全切分索引模式(需更新模型与CharTable)
  2. CRF分词升级到CRF词法分析器,支持训练,与CRF++兼容
  3. 重构词法分析器,提供统一的接口。
  4. HanLP.newSegment支持传入算法名称构造相应的分词器
  5. Sentence支持翻译词性,方便记不住词性短码的初级用户
  6. Sentence支持输出brat standoff format:http://brat.nlplab.org/standoff.html
  7. 修复DoubleArrayTrie的LongestSearcher
  8. 修订词库、修订CharTable、微调人名识别模型,解决:https://github.com/hankcs/HanLP/issues/772
  9. 新数据包 data-for-1.6.2.zip md5=3ebb9e47ecff740f09c9ec7c21324661 获取最新版的数据包,请forkgit clone一份仓库中的最新data。
  10. Portable版同步升级到v1.6.2
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.2</version>
        </dependency>

:tada:感谢所有在issue中提出宝贵建议的用户!

v1.6.1

6 years ago
  1. 感知机分词性能评估、修正感知机词法分析器在空白字符串时的问题
  2. 感知机命名实体识别支持任意NER类型、开放词法分析器CWS、POS和NER的getter
  3. 修复MutableDoubleArrayTrieInteger遍历时可能产生的问题
  4. 优化角色标注人名识别的启发式规则
  5. 文本分句支持颗粒度
  6. 微调bigram、人名识别模型
  7. 依然兼容数据包 data-for-1.6.0.zip md5=38d19afa881ddb00b213f4680259ce68 获取最新版的数据包,请fork一份并git clone https://github.com/YourName/HanLP.git
  8. Portable版同步升级到v1.6.1
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.1</version>
        </dependency>

:tada:感谢所有在issue中提出宝贵建议的用户!

v1.6.0

6 years ago
  1. :triangular_flag_on_post:《基于感知机的中文分词、词性标注与命名实体识别框架》
  2. :triangular_flag_on_post:《动态双数组trie树》
  3. 新数据包 data-for-1.6.0.zip md5=38d19afa881ddb00b213f4680259ce68 获取最新版的数据包,请fork一份并git clone https://github.com/YourName/HanLP.git
  4. Portable版同步升级到v1.6.0
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.0</version>
        </dependency>

:tada:感谢所有在issue中提出宝贵建议的用户!

v1.5.4

6 years ago
  1. 优化DoubleArrayTrieSegment的效率
  2. 废弃CRFDependencyParser:https://github.com/hankcs/HanLP/issues/730
  3. 改正CRF的Tag方法:https://github.com/hankcs/HanLP/issues/703#issuecomment-355587377
  4. 加载核心词典词性转移矩阵失败时以IllegalArgumentException方式通知:https://github.com/hankcs/HanLP/issues/747
  5. 微调bigram、人名、机构名识别模型,修订繁体->台湾词典:https://github.com/hankcs/HanLP/issues/756#issuecomment-362503432
  6. 数据包依然兼容data-for-1.5.3.zip: 国内网盘海外連結 md5=cadc96db94c3df070855706bb0f8429e 获取最新版的数据包,请fork一份并git clone https://github.com/YourName/HanLP.git

Portable版同步升级到v1.5.4

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.5.4</version>
        </dependency>

:tada:感谢所有在issue中提出宝贵建议的用户!

v1.5.3

6 years ago
  1. 分词器多线程数默认系统CPU核心数
  2. 索引模式可选分词结果最小颗粒度:https://github.com/hankcs/HanLP/issues/670
  3. 识别带千位分隔符的数字,修复BaseNode中的toString()
  4. 微调人名识别模型、ngram;修订现代汉语补充词库、简繁词库
  5. 使word2vec命令行参数解析与原版兼容:https://github.com/hankcs/HanLP/issues/699
  6. 改正CRF的Tag方法:https://github.com/hankcs/HanLP/issues/703
  7. 修复word2vec缓存问题:https://github.com/hankcs/HanLP/issues/718
  8. 新词发现过滤使用LinkedList:https://github.com/hankcs/HanLP/issues/724
  9. 模型加载失败时统一throw new IllegalArgumentException,参考:https://github.com/hankcs/HanLP/issues/477 https://github.com/hankcs/HanLP/issues/116
  10. 数据包依然兼容data-for-1.5.3.zip: 国内网盘海外連結 md5=cadc96db94c3df070855706bb0f8429e 获取最新版的数据包,请fork一份并git clone https://github.com/YourName/HanLP.git

Portable版同步升级到v1.5.3

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.5.3</version>
        </dependency>

:tada:感谢所有contributors、所有在issue中提出宝贵建议的用户!

v1.5.2

6 years ago
  1. 优化CommonDictionary的加载速度
  2. 提高自定义词条以空格开头或结尾时的健壮性
  3. 数据包依然兼容data-for-1.3.3.zip: 国内网盘海外連結 md5=71f6fbbcde4ad70b5b97d4a01ca03c3c 获取最新版的数据包,请fork一份并git clone https://github.com/YourName/HanLP.git

Portable版同步升级到v1.5.2

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.5.2</version>
        </dependency>

:tada:感谢所有在issue中提出宝贵建议的用户!

v1.5.1

6 years ago
  1. 优化新词发现模块的内存占用:https://github.com/hankcs/HanLP/issues/667
  2. word2vec优化,修复Vector类相关问题:https://github.com/hankcs/HanLP/issues/669
  3. 重构EnumItemDictionary,废弃了历史遗留的.trie .dat二次加载,用统一的.bin一次加载
  4. 数据包依然兼容data-for-1.3.3.zip: 网盘分流电信下载海外連結 md5=71f6fbbcde4ad70b5b97d4a01ca03c3c

Portable版同步升级到v1.5.1

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.5.1</version>
        </dependency>

:tada:感谢所有在issue中提出宝贵建议的用户!