PaddleNLP Versions Save

👑 Easy-to-use and powerful NLP and LLM library with 🤗 Awesome model zoo, supporting wide-range of NLP tasks from research to industrial applications, including 🗂Text Classification, 🔍 Neural Search, ❓ Question Answering, ℹ️ Information Extraction, 📄 Document Intelligence, 💌 Sentiment Analysis etc.

v2.2.2

2 years ago

New Features

新增产业应用案例

新增评论观点抽取的应用案例 #1505

  • 提供评论观点抽取和属性级情感分类能力,并支持全流程情感分析推理能力
  • 提供基于 PP-MiniLM 小模型推理加速解决方案,推理性能提升 900%

新增端到端语义检索引擎应用案例 #1507

  • 支持监督语义索引模型 In-Batch Negatives 基于 Paddle Inference 计算文本对相似度的推理能力
  • 支持无监督语义索引模型 SimCSE 基于 Paddle Inference 计算文本对相似度的推理能力

FasterGeneration

  • 优化 JIT 载入自定义 op 逻辑以优化 enable_faster_encoder() need_build 参数以及 pipeline 方式使用多个加速模型时框架冗余的 Warning,提升使用体验 #1495

New Models

  • 新增长文本语言模型 Funnel Transformer,新增基于Funnel Transformer的SQUAD问答任务示例 #1419

Bugfix

  • 修复了GPT-3静态图,训练参数选项错误问题 #1500
  • 修复了LayoutXLM模型在windows环境下的报错 #1489
  • 优化静态图参数转化成动态图参数脚本,支持paddlenlp中动静统一的模型结构 #1478

v2.2.1

2 years ago

New Features

中文特色小模型 PP-MiniLM 发布 #1403

  • 推理速度快,推理速度是BERT-base(12L768H) 4.2倍
  • 模型参数少,模型参数量相对BERT-base(12L768H) 减少52%
  • 模型精度高,在中文语言理解评测基准 CLUE 7 个分类数据集上精度比 BERT-base(12L768H) 高 0.32

产业级语义检索框架发布 #1463

  • 一站式提供高可用的训练&预测语义检索框架,同时集成高性能 ANN 引擎 Milvus
  • 召回模型方案覆盖有监督、无监督多种数据场景,支持只基于无监督数训练语义索引模型

Taskflow

  • Taskflow 新增中文对话PLATO-mini任务,支持多轮对话记忆功能 #1383

FasterGeneration

  • 生成解码框架新增注意力机制QKV融合,解码性能最高提升 8% #1455

Bugfix

  • 修复使用Paddle2.2及其以下版本兼容性问题 #1450
  • 修复MSRA_NER示例中 max_steps 选项,不生效的问题 #1451
  • 修复ERNIE-1.0模型预训练部分参数,增强预训练稳定性 #1344
  • 修复EFL及ernie-matching在windows下的静态图预测问题 #1480
  • 修复Taskflow文本相似度计算任务windows兼容性问题 #1465
  • 修复LayoutXLM模型加载时无法找到yaml文件的问题 #1454
  • 修复SqueezeBert模型vocab等资源路径的缺失和typo #1454
  • 修复FasterGeneration下diversity rate的结果错误的问题 #1477
  • 修复FasterGeneration下GPT模型的repetition_penalty被屏蔽的问题 #1471

v2.2.0

2 years ago

New features

预训练加速训推一体加速开发FasterERNIE

  • 新增支持高性能文本预处理算子FasterTokenizer,提供更快的文本预处理 #1220
  • 融合Fused TransformerEncoder API,极致优化Transformer性能 #1308
  • 新增to_static()接口,支持文本处理与模型计算整图导出,提供更易用的模型导出
  • 优化C++部署体验,显著降低C++开发成本
  • 提供文本分类、序列标注使用示例

面向生成任务的高性能加速组件FasterGeneration

  • FasterTransformer升级至V4.0版本
  • Transformer 加速版本在 sampling 以及 3 种 beam search 策略下新增 force decoding 策略支持
  • 生成API新增Diverse Beam Search策略

Taskflow升级

  • 新增名词短语标注及文本相似度计算任务 #1246 #1345
  • 句法分析任务增加已分词方式解析句法树能力 #1351
  • 中文分词、词性标注、命名实体识别任务支持用户自定义词典干预策略 #364 #1420
  • 知识挖掘任务支持自定义模型、自定义Term-Linking等进阶使用方式 #1329
  • 解语套件词类知识标注工具WordTag支持增量数据训练 #1329
  • 解语套件百科知识树TermTree使用体验完善,支持定制化使用 #1329

更多预训练模型

  • 新增表单多模态模型LayoutLM、LayoutLMv2、LayoutXLM模型
  • 新增基于unimo-text-1.0-lcsts-new中文摘要预训练模型
  • 新增mBART和mBART50模型,用于多语言翻译
  • 解语套件新增NPTag模型,可直接用于名词短语标注,标签类别2000+ #1246
  • 新增GPTModel预训练权重 gpt2-en、gpt2-large-en、gpt2-xl-en,可用于英文文本生成 #1302
  • 新增Mengzi中文预训练模型

自动模型与分词器加载

  • 新增AutoModel和AutoTokenizer模块,可更便捷加载不同网络结构预训练模型与分词器

社区贡献

  • 新增BertJapaneseTokenizer & 新增BertJapanese模型预训练权重 by @iverxin in #1115
  • 新增BlenderbotSmall & Blenderbot模型 #868 ,感谢 @kevinng77 的贡献
  • 新增SqueezeBERT模型 #937 ,感谢 @renmada 的贡献
  • 新增CTRL模型 #921 ,感谢 @JunnYu 的贡献
  • 新增T5模型 #916 ,感谢 @JunnYu 的贡献
  • 新增Reformer模型 #870 ,感谢 @JunnYu 的贡献
  • 新增MobileBert模型 #1160 ,感谢 @nosaydomore 的贡献
  • 新增ChineseBert模型 #1100 ,感谢 @27182812 的贡献
  • 新增End-to-End Memory Network模型 #1046,感谢 @yulangz 的贡献
  • 完善Bert模型下游任务代码 & 新增Bert预训练权重 by @JunnYu in #1085
  • 完善BigBird模型下游任务代码 by @iverxin in #1114
  • 完善Electra模型下游任务代码 & 新增Electra预训练权重 by @JunnYu in #1086
  • 完善Roberta模型下游任务代码 & 新增Roberta预训练权重 by @nosaydomore in #1133
  • 完善GPT模型下游任务代码 & 新增GPT预训练权重 by @JunnYu in #1088
  • 完善XLNet模型下游任务代码 & 新增DistilBert预训练权重by @renmada in

Misc

  • 新增文本分类数据集XNLI #1336
  • GPT-3模型预训练,支持静态图Pure FP16训练 #1353
  • 命名实体识别,增加了peoples_daily_ner数据集支持,同时支持使用ERNIE模型 #1361
  • 优化ViterbiDecoder解码性能,在GPU设备上可提升10倍 #1291

Bugfix

  • 修复下载进度条单位不正确的问题
  • 修复GPT模型导出后,预测报错问题 #1303
  • 修复文本纠错模型指标统计Bug #1255 #1265 #1273
  • 修复generate API接口的get_logits_processor参数缺失 @JunnYu in #1399
  • 修复BERT模型对2D attention mask的支持 @JunnYu in #1226

v2.1.1

2 years ago

New Features

GPT-3动态图模式增加pure fp16支持。 Taskflow情感分析任务增加预测score输出。 Generation API新增Diverse Sibling Search策略。 Generation API新增Repetition Penalty策略。@JunnYu

Bug Fix

修复 FasterUNIMOText 在 top_p 为 1.0 时不能调用加速的问题。

v2.1.0

2 years ago

New Features

  • 新增开箱即用的工业级NLP能力Taskflow,预置中文分词、词性标注、专名识别、句法分析、情感分析、文本纠错等8个任务,更多使用说明请参考Taskflow文档
  • 新增基于Promot Tuning的NLP小样本学习应用实例,配合R-Drop策略显著提升效果,更多技术细节请参考FewCLUE
  • 集成FasterTransformer加速能力,显著提升翻译、对话等文本生成任务的推理速度。支持Transformer/GPT/BART等主流生成结构与Beam Search与Sampling-based解码策略,更多使用说明请参考FasterTransformer使用文档

New Examples

New Pretrained Models

  • 新增RoFormer模型 #804 ,感谢 @JunnYu 的贡献🎉。
  • 新增ConvBert模型 #819,感谢 @JunnYu 的贡献🎉。
  • 新增MPNet模型 #869,感谢 @JunnYu 的贡献🎉。

New Dataset

  • 新增文本摘要数据集CNN/DailyMail #1061。

Bug Fix

  • 修复维特比解码在长度为1的输入下预测不准确的问题 #1126 。
  • 修复词法分析模型的计算精度问题 #962 。
  • 修复Tokenizer计算offset mapping时对特殊字符处理的问题 #882,感谢 @JunnYu 的贡献🎉。
  • 修复Windows环境下出现的int类型变量错误 #856 #1023 #1146。

Docs

  • 优化Transformer API Reference文档,更加清晰准确易懂。感谢 @huhuiwen99 的贡献🎉。

New Contributors

v2.0.8

2 years ago

New Pretrained-Models

新增文本生成UNIMO-text模型和tokenizer,包括unimo-text-1.0和unimo-text-1.0-large。 新增长文本预训练模型ERNIE-Doc。

New Dataset

新增问题生成数据集DuReaderQG。 新增文案生成数据集AdvertiseGen。 新增短摘要生成数据集LCSTS_new。 新增长文本语义匹配数据集CAIL2019-SCM。 新增长阅读理解数据集C3。 新增文本分类数据集HYP、THUCNews。

New Feature

新增Layerwise-decay优化器。 新增 R-Drop loss API.

BugFix

修复生成API中min_out_len参数不起作用的bug和一些文档问题。 修复tokenizer计算offset mapping时会把原本有意义的#删除的问题。 @JunnYu

New Examples

新增【千言:面向事实一致性的生成评测比赛】baseline。 新增【千言-问题匹配鲁棒性评测】baseline.。

v2.0.7

2 years ago

功能更新

  1. 新增PET策略的Few-Shot Learning基线;
  2. 新增BART模型;
  3. 新增C3, TriviaQa, CAIL2019-SCM数据集;
  4. FasterTransformer能力增强 4.1 Unified Transformer新增Beam Search和Sampling解码策略; 4.2 Top-k Sampling解码策略支持任意k;

Bug Fix

  1. 简化依赖,提升安装速度;
  2. 修复TaskFlow API的多线程使用问题;

v2.0.6

2 years ago

功能更新

  1. 新增TaskFlow一键预测API,支持情感分析、知识关联(text2knowledge)任务;
  2. 文本匹配任务新增SimBERT模型;
  3. 情感分析模块中新增情绪分析任务;
  4. 新增长文本分类hyp thunews数据集;

Bug Fix

  1. 修复GPT任务中ClipGradByGlobalNorm 和 Megatron不一致的Bug;
  2. 修复Unified Transformer在Windows上的数据类型;
  3. 修复CRF batch_size=1的训练出错问题;

v2.0.5

2 years ago

Bug fix

  • 修复了预训练模型vocab无法保存的问题。

更多的预训练模型

  • 新增macbert-base-chinesemacbert-large-chinese预训练模型,与其他BERT模型的加载方式一致。

v2.0.4

2 years ago

Bug fix

  • 修复了ERNIE-GRAM的vocab中,idx_to_tokentoken_to_idx不对应的问题。感谢@BFJL的贡献!🎉 🎉 🎉

更多的数据集

  • 新增SE-ABSA16_CAME中文情感分类数据集,感谢 @jiaqianjing 的高质量贡献! 🎉 🎉 🎉
  • 新增COTE-BD & COTE-MFW中文语义角色识别数据集,感谢 @jiaqianjing 的高质量贡献! 🎉 🎉 🎉

Finetuned model

  • 新增ernie-2.0-en-finetuned-squad模型,由ernie-2.0-ensquad1.0数据集上finetune得到。