👑 Easy-to-use and powerful NLP and LLM library with 🤗 Awesome model zoo, supporting wide-range of NLP tasks from research to industrial applications, including 🗂Text Classification, 🔍 Neural Search, ❓ Question Answering, ℹ️ Information Extraction, 📄 Document Intelligence, 💌 Sentiment Analysis etc.
.save_to_hf_hub()
上传至Huggingface Hub #3982from_pretrained_v2
不能加载FP16模型。#3902Template
使用 options
关键字时无法组 batch 的问题 #3889prefix
和options
,新增 position
, token_type
, length
, encoder
, hidden_size
等7个属性 #3724InputExample
和 InputFeatures
对输入数据关键字的限制d_model
4 倍的限制,新增导入 model_state
方式加载模型 #3592use_fast
参数,指定使用fast_tokenizer
完成高性能分词。目前ERNIE
, BERT
, TinyBert
以及ERNIE-M
可开启该选项。#3746MBartTokenizer
和 MBart50Tokenizer
,MBart50Tokenizer
支持 AutoTokenizer
,MBartTokenizer
和 MBart50Tokenizer
支持自定义 sentence piece 参数 #3323use_cache=False
情况下解码出错问题 #3115position_ids
,token_type_ids
,attention mask
等功能 #3177position_ids
,token_type_ids
,attention mask
等功能 #3349PaddleNLP Piplines旨在提升NLP模型上线效率,将NLP复杂系统的通用模块抽象封装为标准组件,支持快速组合复杂NLP系统应用
#3003 #3160 #3135 #3092 #3186
文本分类全流程应用,支持预训练模型、小样本、语义索引方案,通过TrustAI来快速调优模型 #3087 #3184 #3104 #3180 #2956 #3011
PaddleNLP 2.4版本发布CodeGen代码生成全系列SOTA模型,可快速一键调用代码生成模型 #2641 #2754 #3017
文图生成目前是AIGC一个重要方向,PaddleNLP 2.4发布众多有趣的文图生成模型,可一键调用模型快速趣玩文图生成模型
#2917 #2968 #2988 #3040 #3072 #3118 #3198
文本摘要是目前NLP场景中高频场景,此次发版新增中文文本应用,支持文本摘要定制化训练 #2971
model_max_input_size
配置字段 #3127bos_token_id
出错问题 https://github.com/PaddlePaddle/PaddleNLP/pull/3058
model_max_length
问题 https://github.com/PaddlePaddle/PaddleNLP/pull/3018
logits_processor
、get_decoder_start_token_id()
#3018get_input_embeddings()
和 set_input_embeddings()
方法获取 embeddings #3133get_vocab()
、 0/1 attention mask、add bos token 等新增接口功能 #2463Full Changelog: https://github.com/PaddlePaddle/PaddleNLP/compare/v2.3.0...v2.4.0
bos_token_id
出错问题 #3058model_max_length
问题 #3018resize-token-embeddings
错误 #2763Full Changelog: https://github.com/PaddlePaddle/PaddleNLP/compare/v2.3.5...v2.3.7