👑 Easy-to-use and powerful NLP and LLM library with 🤗 Awesome model zoo, supporting wide-range of NLP tasks from research to industrial applications, including 🗂Text Classification, 🔍 Neural Search, ❓ Question Answering, ℹ️ Information Extraction, 📄 Document Intelligence, 💌 Sentiment Analysis etc.
Full Changelog: https://github.com/PaddlePaddle/PaddleNLP/compare/v2.3.4...v2.3.5
Full Changelog: https://github.com/PaddlePaddle/PaddleNLP/compare/v2.3.3...v2.3.4
AutoModel
模型选择 bug 导致从本地目录加载 ernie-1.0
等模型失败的问题 #2426Task
使用 ONNX 预测的报错方式 #2417Full Changelog: https://github.com/PaddlePaddle/PaddleNLP/compare/v2.3.2...v2.3.3
Tokenizer
兼容性优化。ElectraTokenizer
缺失 do_lower_case
属性问题。#2263AutoTokenizer
加载 ERNIE 模型报错问题。#2315load_dataset
函数报 dict_keys
错误问题。#2364Full Changelog: https://github.com/PaddlePaddle/PaddleNLP/compare/v2.3.1...v2.3.2
max_seq_len
参数问题。https://github.com/PaddlePaddle/PaddleNLP/pull/2192max_seq_len
报错问题。https://github.com/PaddlePaddle/PaddleNLP/pull/2207Full Changelog: https://github.com/PaddlePaddle/PaddleNLP/compare/v2.3.0...v2.3.1
FasterGeneration本次发版进行了以下的升级,更多使用说明请查阅FasterGeneration文档
size_per_head
支持范围,支持了 CPM-Large(2.6B)和PLATO-XL(11B)等大模型生成加速load_dataset
返回的数据集(建议在先import paddlenlp
后再import datasets)DataCollatorWithPadding
、DataCollatorForTokenClassification
等常用任务的 Data Collator,简化数据处理流程BatchEncoding
类的对象),可通过 return_dict
设置save_pretrained
保存内容格式有调整(保证了兼容性,此前保存内容仍能正常使用)BatchEncoding
类的对象),可通过 return_dict
设置Full Changelog: https://github.com/PaddlePaddle/PaddleNLP/compare/v2.2.6...v2.3.0
load_dataset
返回的数据集。建议先import paddlenlp
后再import Datasets,以保证一些 patch 功能生效,若检测到 Datasets 先于 paddlenlp 加载,将会进行提示。BatchEncoding
类的对象),可通过 return_dict
设置save_pretrained
保存内容格式有调整(保证了兼容性,此前保存内容仍能正常使用)$PPNLP_HOME/extensions
下BatchEncoding
类的对象),可通过 return_dict
设置我们很高兴的发布 PaddleNLP 2.2.4 版本,主要是对 2.2.3 中一些功能的修复,并对部分功能点和文档做了增强,重点如下:
attention_mask
计算溢出的错误。#1585Tokenizer.__call__()
方法truncation_strategy不生效的bug。 #1615