Ltp Versions Save

Language Technology Platform

v4.2.0

1 year ago

[结构性变化] 将 LTP 拆分成 2 个部分，维护和训练更方便，结构更清晰
- [Legacy 模型] 针对广大用户对于推理速度的需求，使用 Rust 重写了基于感知机的算法，准确率与 LTP3 版本相当，速度则是 LTP v3 的 2.53 倍，开启多线程更可获得 15.76 倍的速度提升，但目前仅支持分词、词性、命名实体三大任务
- [深度学习模型] 即基于 PyTorch 实现的深度学习模型，支持全部的6大任务（分词/词性/命名实体/语义角色/依存句法/语义依存）
[其他改进] 改进了模型训练方法
- [共同] 提供了训练脚本和训练样例，使得用户能够更方便地使用私有的数据，自行训练个性化的模型
- [深度学习模型] 采用 hydra 对训练过程进行配置，方便广大用户修改模型训练参数以及对 LTP 进行扩展（比如使用其他包中的 Module）
[其他变化] 分词、依存句法分析 (Eisner) 和语义依存分析 (Eisner) 任务的解码算法使用 Rust 实现，速度更快
[新特性] 模型上传至 Huggingface Hub，支持自动下载，下载速度更快，并且支持用户自行上传自己训练的模型供LTP进行推理使用
[破坏性变更] 改用 Pipeline API 进行推理，方便后续进行更深入的性能优化（如SDP和SDPG很大一部分是重叠的，重用可以加快推理速度），使用说明参见Github快速使用部分

v4.1.5.post2

2 years ago

limit transformers version
dep fast default false
sdp mode default mix

v4.1.5.post1

2 years ago

limit transformers version

v4.1.5

2 years ago

修复一些拼写错误 #517
修复一些 pytorch 1.8 的兼容性问题 #519

v4.1.4.post1

2 years ago

修复自定义分词邻接无效的问题 #491
增加了对 packaing 的版本要求 #509

v4.1.4

3 years ago

SEG/POS 可加入CRF解码
修复了韩文等字符的处理 #478
增加了两个新模型
自动处理训练语料的词表
其他变更

v4.1.3.post1

3 years ago

修复由于分词词表带来的切分不一致问题 #466

v4.1.3

3 years ago

NER 任务可选 CRF 解码
SDP增加了混合解码方法
增加了在 UD 数据集上训练的简/繁体中文模型
修复了最大前向匹配算法在非中文情况下无法退出循环的问题
测试了对 transformers 4.0 的支持情况

v4.1.2

3 years ago

修复了前向最大匹配出错的问题 #457

v4.1.1

3 years ago

修复了训练过程中 DEP/SDP MASK出错导致指标计算错误的问题
修复了代码更新导致某些任务无法训练的问题
增加了 lr_scheduler 的配置项