PaddleNLP Versions Save

👑 Easy-to-use and powerful NLP and LLM library with 🤗 Awesome model zoo, supporting wide-range of NLP tasks from research to industrial applications, including 🗂Text Classification, 🔍 Neural Search, ❓ Question Answering, ℹ️ Information Extraction, 📄 Document Intelligence, 💌 Sentiment Analysis etc.

v2.2.2

2 years ago

New Features

新增产业应用案例

新增评论观点抽取的应用案例 #1505

提供评论观点抽取和属性级情感分类能力，并支持全流程情感分析推理能力
提供基于 PP-MiniLM 小模型推理加速解决方案，推理性能提升 900%

新增端到端语义检索引擎应用案例 #1507

支持监督语义索引模型 In-Batch Negatives 基于 Paddle Inference 计算文本对相似度的推理能力
支持无监督语义索引模型 SimCSE 基于 Paddle Inference 计算文本对相似度的推理能力

FasterGeneration

优化 JIT 载入自定义 op 逻辑以优化 enable_faster_encoder() need_build 参数以及 pipeline 方式使用多个加速模型时框架冗余的 Warning，提升使用体验 #1495

New Models

新增长文本语言模型 Funnel Transformer，新增基于Funnel Transformer的SQUAD问答任务示例 #1419

Bugfix

修复了GPT-3静态图，训练参数选项错误问题 #1500
修复了LayoutXLM模型在windows环境下的报错 #1489
优化静态图参数转化成动态图参数脚本，支持paddlenlp中动静统一的模型结构 #1478

v2.2.1

2 years ago

New Features

中文特色小模型 PP-MiniLM 发布 #1403

推理速度快，推理速度是BERT-base(12L768H) 4.2倍
模型参数少，模型参数量相对BERT-base(12L768H) 减少52%
模型精度高，在中文语言理解评测基准 CLUE 7 个分类数据集上精度比 BERT-base(12L768H) 高 0.32

产业级语义检索框架发布 #1463

一站式提供高可用的训练&预测语义检索框架，同时集成高性能 ANN 引擎 Milvus
召回模型方案覆盖有监督、无监督多种数据场景，支持只基于无监督数训练语义索引模型

Taskflow

Taskflow 新增中文对话PLATO-mini任务，支持多轮对话记忆功能 #1383

FasterGeneration

生成解码框架新增注意力机制QKV融合，解码性能最高提升 8% #1455

Bugfix

修复使用Paddle2.2及其以下版本兼容性问题 #1450
修复MSRA_NER示例中 max_steps 选项，不生效的问题 #1451
修复ERNIE-1.0模型预训练部分参数，增强预训练稳定性 #1344
修复EFL及ernie-matching在windows下的静态图预测问题 #1480
修复Taskflow文本相似度计算任务windows兼容性问题 #1465
修复LayoutXLM模型加载时无法找到yaml文件的问题 #1454
修复SqueezeBert模型vocab等资源路径的缺失和typo #1454
修复FasterGeneration下diversity rate的结果错误的问题 #1477
修复FasterGeneration下GPT模型的repetition_penalty被屏蔽的问题 #1471

v2.2.0

2 years ago

New features

预训练加速训推一体加速开发FasterERNIE

新增支持高性能文本预处理算子FasterTokenizer，提供更快的文本预处理 #1220
融合Fused TransformerEncoder API，极致优化Transformer性能 #1308
新增to_static()接口，支持文本处理与模型计算整图导出，提供更易用的模型导出
优化C++部署体验，显著降低C++开发成本
提供文本分类、序列标注使用示例

面向生成任务的高性能加速组件FasterGeneration

FasterTransformer升级至V4.0版本
Transformer 加速版本在 sampling 以及 3 种 beam search 策略下新增 force decoding 策略支持
生成API新增Diverse Beam Search策略

Taskflow升级

新增名词短语标注及文本相似度计算任务 #1246 #1345
句法分析任务增加已分词方式解析句法树能力 #1351
中文分词、词性标注、命名实体识别任务支持用户自定义词典干预策略 #364 #1420
知识挖掘任务支持自定义模型、自定义Term-Linking等进阶使用方式 #1329
解语套件词类知识标注工具WordTag支持增量数据训练 #1329
解语套件百科知识树TermTree使用体验完善，支持定制化使用 #1329

自动模型与分词器加载

新增AutoModel和AutoTokenizer模块，可更便捷加载不同网络结构预训练模型与分词器

社区贡献

新增BertJapaneseTokenizer & 新增BertJapanese模型预训练权重 by @iverxin in #1115
新增BlenderbotSmall & Blenderbot模型 #868 ，感谢 @kevinng77 的贡献
新增SqueezeBERT模型 #937 ，感谢 @renmada 的贡献
新增CTRL模型 #921 ，感谢 @JunnYu 的贡献
新增T5模型 #916 ，感谢 @JunnYu 的贡献
新增Reformer模型 #870 ，感谢 @JunnYu 的贡献
新增MobileBert模型 #1160 ，感谢 @nosaydomore 的贡献
新增ChineseBert模型 #1100 ，感谢 @27182812 的贡献
新增End-to-End Memory Network模型 #1046，感谢 @yulangz 的贡献
完善Bert模型下游任务代码 & 新增Bert预训练权重 by @JunnYu in #1085
完善BigBird模型下游任务代码 by @iverxin in #1114
完善Electra模型下游任务代码 & 新增Electra预训练权重 by @JunnYu in #1086
完善Roberta模型下游任务代码 & 新增Roberta预训练权重 by @nosaydomore in #1133
完善GPT模型下游任务代码 & 新增GPT预训练权重 by @JunnYu in #1088
完善XLNet模型下游任务代码 & 新增DistilBert预训练权重by @renmada in

Misc

新增文本分类数据集XNLI #1336
GPT-3模型预训练，支持静态图Pure FP16训练 #1353
命名实体识别，增加了peoples_daily_ner数据集支持，同时支持使用ERNIE模型 #1361
优化ViterbiDecoder解码性能，在GPU设备上可提升10倍 #1291

Bugfix

修复下载进度条单位不正确的问题
修复GPT模型导出后，预测报错问题 #1303
修复文本纠错模型指标统计Bug #1255 #1265 #1273
修复generate API接口的get_logits_processor参数缺失 @JunnYu in #1399
修复BERT模型对2D attention mask的支持 @JunnYu in #1226

v2.1.1

2 years ago

New Features

GPT-3动态图模式增加pure fp16支持。 Taskflow情感分析任务增加预测score输出。 Generation API新增Diverse Sibling Search策略。 Generation API新增Repetition Penalty策略。@JunnYu

Bug Fix

修复 FasterUNIMOText 在 top_p 为 1.0 时不能调用加速的问题。

v2.1.0

2 years ago

New Features

新增开箱即用的工业级NLP能力Taskflow，预置中文分词、词性标注、专名识别、句法分析、情感分析、文本纠错等8个任务，更多使用说明请参考Taskflow文档。
新增基于Promot Tuning的NLP小样本学习应用实例，配合R-Drop策略显著提升效果，更多技术细节请参考FewCLUE。
集成FasterTransformer加速能力，显著提升翻译、对话等文本生成任务的推理速度。支持Transformer/GPT/BART等主流生成结构与Beam Search与Sampling-based解码策略，更多使用说明请参考FasterTransformer使用文档。

New Examples

新增无监督语义匹配模型SimCSE。
新增模型压缩策略MiniLMv2。
新增文本纠错模型ERNIE-CSC。
新增句法分析应用示例dependency_parsing。
新增小样本学习应用示例few_shot。
新增文本摘要应用示例BART。
完善ERNIE-1.0/GPT/GPT-3的多机分布式预训练代码。@zhaoyinglia @wangxicoding

New Pretrained Models

新增RoFormer模型 #804 ，感谢 @JunnYu 的贡献🎉。
新增ConvBert模型 #819，感谢 @JunnYu 的贡献🎉。
新增MPNet模型 #869，感谢 @JunnYu 的贡献🎉。

New Dataset

新增文本摘要数据集CNN/DailyMail #1061。

Bug Fix

修复维特比解码在长度为1的输入下预测不准确的问题 #1126 。
修复词法分析模型的计算精度问题 #962 。
修复Tokenizer计算offset mapping时对特殊字符处理的问题 #882，感谢 @JunnYu 的贡献🎉。
修复Windows环境下出现的int类型变量错误 #856 #1023 #1146。

Docs

优化Transformer API Reference文档，更加清晰准确易懂。感谢 @huhuiwen99 的贡献🎉。

New Contributors

@huhuiwen99 made their first contribution in https://github.com/PaddlePaddle/PaddleNLP/pull/914 🎉
@iamqiz made their first contribution in https://github.com/PaddlePaddle/PaddleNLP/pull/950 🎉
@ForFishes made their first contribution in https://github.com/PaddlePaddle/PaddleNLP/pull/986 🎉
@AI-Mart made their first contribution in https://github.com/PaddlePaddle/PaddleNLP/pull/1009 🎉
@zhaoyinglia made their first contribution in https://github.com/PaddlePaddle/PaddleNLP/pull/1064 🎉

v2.0.8

2 years ago

New Pretrained-Models

新增文本生成UNIMO-text模型和tokenizer，包括unimo-text-1.0和unimo-text-1.0-large。新增长文本预训练模型ERNIE-Doc。

New Dataset

新增问题生成数据集DuReaderQG。新增文案生成数据集AdvertiseGen。新增短摘要生成数据集LCSTS_new。新增长文本语义匹配数据集CAIL2019-SCM。新增长阅读理解数据集C3。新增文本分类数据集HYP、THUCNews。

New Feature

新增Layerwise-decay优化器。新增 R-Drop loss API.

BugFix

修复生成API中min_out_len参数不起作用的bug和一些文档问题。修复tokenizer计算offset mapping时会把原本有意义的#删除的问题。 @JunnYu

New Examples

新增【千言：面向事实一致性的生成评测比赛】baseline。新增【千言-问题匹配鲁棒性评测】baseline.。

v2.0.7

2 years ago

功能更新

新增PET策略的Few-Shot Learning基线；
新增BART模型；
新增C3, TriviaQa, CAIL2019-SCM数据集;
FasterTransformer能力增强 4.1 Unified Transformer新增Beam Search和Sampling解码策略; 4.2 Top-k Sampling解码策略支持任意k;

Bug Fix

简化依赖，提升安装速度;
修复TaskFlow API的多线程使用问题;

v2.0.6

2 years ago

功能更新

新增TaskFlow一键预测API，支持情感分析、知识关联(text2knowledge)任务；
文本匹配任务新增SimBERT模型；
情感分析模块中新增情绪分析任务；
新增长文本分类hyp thunews数据集；

Bug Fix

修复GPT任务中ClipGradByGlobalNorm 和 Megatron不一致的Bug；
修复Unified Transformer在Windows上的数据类型；
修复CRF batch_size=1的训练出错问题；

v2.0.5

2 years ago

Bug fix

修复了预训练模型vocab无法保存的问题。

Bug fix

修复了ERNIE-GRAM的vocab中，idx_to_token和token_to_idx不对应的问题。感谢@BFJL的贡献！🎉 🎉 🎉

Finetuned model

新增ernie-2.0-en-finetuned-squad模型，由ernie-2.0-en在squad1.0数据集上finetune得到。

PaddleNLP Versions Save

v2.2.2

New Features

新增产业应用案例

新增评论观点抽取的应用案例 #1505

新增端到端语义检索引擎应用案例 #1507

FasterGeneration

New Models

Bugfix

v2.2.1

New Features

中文特色小模型 PP-MiniLM 发布 #1403

产业级语义检索框架发布 #1463

Taskflow

FasterGeneration

Bugfix

v2.2.0

New features

预训练加速训推一体加速开发FasterERNIE

面向生成任务的高性能加速组件FasterGeneration

Taskflow升级

更多预训练模型

自动模型与分词器加载

社区贡献

Misc

Bugfix

v2.1.1

New Features

Bug Fix

v2.1.0

New Features

New Examples

New Pretrained Models

New Dataset

Bug Fix

Docs

New Contributors

v2.0.8

New Pretrained-Models

New Dataset

New Feature

BugFix

New Examples

v2.0.7

功能更新

Bug Fix

v2.0.6

功能更新

Bug Fix

v2.0.5

Bug fix

更多的预训练模型

v2.0.4

Bug fix

更多的数据集

Finetuned model