👑 Easy-to-use and powerful NLP and LLM library with 🤗 Awesome model zoo, supporting wide-range of NLP tasks from research to industrial applications, including 🗂Text Classification, 🔍 Neural Search, ❓ Question Answering, ℹ️ Information Extraction, 📄 Document Intelligence, 💌 Sentiment Analysis etc.
enable_faster_encoder()
need_build
参数以及 pipeline 方式使用多个加速模型时框架冗余的 Warning,提升使用体验 #1495to_static()
接口,支持文本处理与模型计算整图导出,提供更易用的模型导出新增文本生成UNIMO-text模型和tokenizer,包括unimo-text-1.0和unimo-text-1.0-large。 新增长文本预训练模型ERNIE-Doc。
新增问题生成数据集DuReaderQG。 新增文案生成数据集AdvertiseGen。 新增短摘要生成数据集LCSTS_new。 新增长文本语义匹配数据集CAIL2019-SCM。 新增长阅读理解数据集C3。 新增文本分类数据集HYP、THUCNews。
新增Layerwise-decay优化器。 新增 R-Drop loss API.
修复生成API中min_out_len参数不起作用的bug和一些文档问题。 修复tokenizer计算offset mapping时会把原本有意义的#删除的问题。 @JunnYu
新增【千言:面向事实一致性的生成评测比赛】baseline。 新增【千言-问题匹配鲁棒性评测】baseline.。
macbert-base-chinese
和macbert-large-chinese
预训练模型,与其他BERT模型的加载方式一致。idx_to_token
和token_to_idx
不对应的问题。感谢@BFJL的贡献!🎉 🎉 🎉SE-ABSA16_CAME
中文情感分类数据集,感谢 @jiaqianjing 的高质量贡献! 🎉 🎉 🎉COTE-BD & COTE-MFW
中文语义角色识别数据集,感谢 @jiaqianjing 的高质量贡献! 🎉 🎉 🎉ernie-2.0-en-finetuned-squad
模型,由ernie-2.0-en
在squad1.0
数据集上finetune得到。