HanLP Versions Save

Natural Language Processing for the next decade. Tokenization, Part-of-Speech Tagging, Named Entity Recognition, Syntactic & Semantic Dependency Parsing, Document Classification

v1.6.5

5 years ago

Pre-release测试版

重构Nature枚举为类，避免反射，兼容最新JDK：https://github.com/hankcs/HanLP/issues/866
新增感知机分类器，基于此实现人名性别识别
新增一阶、二阶HMM
新增中文分词评测工具
支持使用环境变量HANLP_ROOT来代替hanlp.properties中的root
IOUtil读取空白文件时的稳定性，兼容 UTF8 file with BOM
IOUtil.loadDictionary支持标记整个词典的默认词性
DoubleArrayTrieSegment和AhoCorasickDoubleArrayTrieSegment支持构造自词典路径
修正感知机词法分析器在不进行命名实体识别时对字符的正规化 @wangzhe258369
微调人名识别模型、删除错误词条
修订CharTable，删除橙子和橘子的不合理的转换 @linuxsong
数据包 data-for-1.6.4.zip md5=8b5b944f89c4052d0552bf8ad7479010 获取最新版的数据包，请fork并git clone一份仓库中的最新data。
Portable版同步升级到v1.6.5

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.5</version>
        </dependency>

:tada:感谢所有在issue中提出宝贵建议的用户！

v1.6.4

6 years ago

优化CorpusLoader、优化MutableFeatureMap的设计
优化新词发现，使结果不含分隔符:https://github.com/hankcs/HanLP/issues/826
TextRank提取关键词提升算法速度 @hlstudio
用户词典热更新时支持.csv @patrick_lin
增强词向量读取时的健壮性：https://github.com/hankcs/HanLP/issues/821
根据百度汉语和在线辞海修正拼音词典 @AnyListen
修订停用词词典 @duohappy
修复词法分析器禁用用户词典时发生的问题、修复词法分析器seg接口与命名实体识别的配合问题：https://github.com/hankcs/pyhanlp/issues/15#issuecomment-382583304 、修正结构化感知机多线程平均的问题
微调人名识别模型、新增月份词汇
数据包 data-for-1.6.4.zip md5=8b5b944f89c4052d0552bf8ad7479010 获取最新版的数据包，请fork并git clone一份仓库中的最新data。
Portable版同步升级到v1.6.4

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.4</version>
        </dependency>

:tada:感谢所有在issue中提出宝贵建议的用户！

v1.6.3

6 years ago

词法分析器支持CustomDictionary.insert动态插入的用户词条
词法分析器支持用户词典中的自定义词性
词法分析器支持enableCustomDictionaryForcing提高用户词典优先级
NLPTokenizer默认使用感知机词法分析器
完善圆圈数字对应关系 @AnyListen
开放命名实体识别的特征提取方法
TextRankKeyword使用CoreStopWordDictionary的过滤器
删除人名识别中的BXD模式，优化日本人名识别
修复ViterbiSegment激活多个配置项带来的问题
微调bigram、微调人名识别模型
数据包兼容 data-for-1.6.2.zip md5=3ebb9e47ecff740f09c9ec7c21324661 获取最新版的数据包，请fork并git clone一份仓库中的最新data。
Portable版同步升级到v1.6.3

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.3</version>
        </dependency>

:tada:感谢所有在issue中提出宝贵建议的用户！

v1.6.2

6 years ago

所有词法分析器都支持用户词典、简繁、offset与全切分索引模式（需更新模型与CharTable）
CRF分词升级到CRF词法分析器，支持训练，与CRF++兼容
重构词法分析器，提供统一的接口。
HanLP.newSegment支持传入算法名称构造相应的分词器
Sentence支持翻译词性，方便记不住词性短码的初级用户
Sentence支持输出brat standoff format：http://brat.nlplab.org/standoff.html
修复DoubleArrayTrie的LongestSearcher
修订词库、修订CharTable、微调人名识别模型，解决：https://github.com/hankcs/HanLP/issues/772
新数据包 data-for-1.6.2.zip md5=3ebb9e47ecff740f09c9ec7c21324661 获取最新版的数据包，请fork并git clone一份仓库中的最新data。
Portable版同步升级到v1.6.2

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.2</version>
        </dependency>

:tada:感谢所有在issue中提出宝贵建议的用户！

v1.6.1

6 years ago

感知机分词性能评估、修正感知机词法分析器在空白字符串时的问题
感知机命名实体识别支持任意NER类型、开放词法分析器CWS、POS和NER的getter
修复MutableDoubleArrayTrieInteger遍历时可能产生的问题
优化角色标注人名识别的启发式规则
文本分句支持颗粒度
微调bigram、人名识别模型
依然兼容数据包 data-for-1.6.0.zip md5=38d19afa881ddb00b213f4680259ce68 获取最新版的数据包，请fork一份并git clone https://github.com/YourName/HanLP.git。
Portable版同步升级到v1.6.1

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.1</version>
        </dependency>

:tada:感谢所有在issue中提出宝贵建议的用户！

v1.6.0

6 years ago

:triangular_flag_on_post:《基于感知机的中文分词、词性标注与命名实体识别框架》
:triangular_flag_on_post:《动态双数组trie树》
新数据包 data-for-1.6.0.zip md5=38d19afa881ddb00b213f4680259ce68 获取最新版的数据包，请fork一份并git clone https://github.com/YourName/HanLP.git。
Portable版同步升级到v1.6.0

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.0</version>
        </dependency>

:tada:感谢所有在issue中提出宝贵建议的用户！

v1.5.4

6 years ago

优化DoubleArrayTrieSegment的效率
废弃CRFDependencyParser：https://github.com/hankcs/HanLP/issues/730
改正CRF的Tag方法：https://github.com/hankcs/HanLP/issues/703#issuecomment-355587377
加载核心词典词性转移矩阵失败时以IllegalArgumentException方式通知：https://github.com/hankcs/HanLP/issues/747
微调bigram、人名、机构名识别模型，修订繁体->台湾词典：https://github.com/hankcs/HanLP/issues/756#issuecomment-362503432
数据包依然兼容data-for-1.5.3.zip：国内网盘或海外連結 md5=cadc96db94c3df070855706bb0f8429e 获取最新版的数据包，请fork一份并git clone https://github.com/YourName/HanLP.git。

Portable版同步升级到v1.5.4

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.5.4</version>
        </dependency>

:tada:感谢所有在issue中提出宝贵建议的用户！

v1.5.3

6 years ago

分词器多线程数默认系统CPU核心数
索引模式可选分词结果最小颗粒度：https://github.com/hankcs/HanLP/issues/670
识别带千位分隔符的数字，修复BaseNode中的toString()
微调人名识别模型、ngram；修订现代汉语补充词库、简繁词库
使word2vec命令行参数解析与原版兼容：https://github.com/hankcs/HanLP/issues/699
改正CRF的Tag方法：https://github.com/hankcs/HanLP/issues/703
修复word2vec缓存问题：https://github.com/hankcs/HanLP/issues/718
新词发现过滤使用LinkedList：https://github.com/hankcs/HanLP/issues/724
模型加载失败时统一throw new IllegalArgumentException，参考：https://github.com/hankcs/HanLP/issues/477 https://github.com/hankcs/HanLP/issues/116
数据包依然兼容data-for-1.5.3.zip：国内网盘或海外連結 md5=cadc96db94c3df070855706bb0f8429e 获取最新版的数据包，请fork一份并git clone https://github.com/YourName/HanLP.git。

Portable版同步升级到v1.5.3

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.5.3</version>
        </dependency>

:tada:感谢所有contributors、所有在issue中提出宝贵建议的用户！

v1.5.2

6 years ago

优化CommonDictionary的加载速度
提高自定义词条以空格开头或结尾时的健壮性
数据包依然兼容data-for-1.3.3.zip：国内网盘或海外連結 md5=71f6fbbcde4ad70b5b97d4a01ca03c3c 获取最新版的数据包，请fork一份并git clone https://github.com/YourName/HanLP.git。

Portable版同步升级到v1.5.2

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.5.2</version>
        </dependency>

:tada:感谢所有在issue中提出宝贵建议的用户！

v1.5.1

6 years ago

优化新词发现模块的内存占用：https://github.com/hankcs/HanLP/issues/667
word2vec优化，修复Vector类相关问题：https://github.com/hankcs/HanLP/issues/669
重构EnumItemDictionary，废弃了历史遗留的.trie .dat二次加载，用统一的.bin一次加载
数据包依然兼容data-for-1.3.3.zip：网盘分流或电信下载或海外連結 md5=71f6fbbcde4ad70b5b97d4a01ca03c3c

Portable版同步升级到v1.5.1

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.5.1</version>
        </dependency>

:tada:感谢所有在issue中提出宝贵建议的用户！