Sft Datasets Save

开源SFT数据集整理,随时补充

Project README

开源SFT数据集整理

数据集 数目 Lang Task Gen 类型 来源 链接
belle_cn 1079517 CN TS/MT SI 通用指令,数学推理,对话 text-davunci-003 下载
firefly 1649398 CN MT COL 23种nlp任务 收集中文数据集,人工书写指令模板 下载
GAOKAO 2785 CN MT COL 高考中的多选,填空等问题 人工标注的数据集的收集 下载
COIG 298428 CN MT COL 考试,翻译,价值观指令数据集搜集,基于知识图谱的反事实对话 自动化工具+人工验证 下载
pCLUE 1200705 CN MT 73个Prompt,分类,推理,关键词识别,阅读理解等9个NLP任务 下载
CSL 396209 CN MT 40万中文论文元数据,26个Prompt 下载
CNewSum 304307 CN TS 字节与UCSB发布的中文摘要数据集 下载
Coco-cn CN TS 图文多模态 下载
news_commentary 69200 EN/CN TS 中英文翻译数据 下载
Chain of Thought 74771 EN/CN MT HG CoT相关任务 人在现有数据集上标注CoT 下载
HC3 37175 EN/CN TS MIX 对话评估 gpt-3.5 或 人工 下载
instinwild 52191 EN/CN MT SI 生成,开放域问答,头脑风暴 text-davunci-003 下载
Alpaca_GPT4 52002 EN/CN MT SI 通用指令 GPT-4 生成的Alpaca数据 下载
MOSS 1583595 EN/CN SI 下载
LLMZoo ML 下载
Guanaco 534610 ML MT SI 多种nlp任务 text-davinci-003 下载
Natural Instructions 5040134 ML MT COL 多种nlp任务 人工标注的数据集的收集 下载
xP3 78883588 ML MT COL 多种nlp任务 人工标注的数据集的收集 下载
alpaca 52002 EN MT SI 通用指令 text-davinci-003 下载
GPT4all 806199 EN MT COL 代码,故事,对话 GPT-3.5-turbo 蒸馏 下载
GPTeacher 29013 EN MT SI 通用,角色扮演,工具指令 GPT-4 & toolformer 下载
prosocial dialog 165681 EN TS MIX 对话 GPT-3改写问题,人工回复 下载
finance_en 68912 EN TS COL 金融领域问答 GPT3.5 下载
instruct 888969 EN MT COL GPT4All,Alpaca和开源数据集的增强 使用AllenAI提供的nlp增强工具 下载
Code Alpaca 20022 EN SI SI 代码生成,编辑,优化 text-davinci-003 下载
webGPT 18994 EN TS MIX 信息检索问答 fine-tuned GPT-3 + 人工评估 下载
dolly 2.0 15015 EN TS HG 公开、封闭式问答、信息抽取、摘要生成、开放式构思、分类以及创意写作七类任务 人工标注 下载
baize 653699 EN MT COL Alpaca和多种问答任务 人工标注的数据集的收集 下载
hh-rlhf 284517 EN TS MIX 对话 RLHF models 下载
OIG(part) 49237 EN MT COL 多种nlp任务 人工标注的数据集的收集和数据增强 下载
camel 760620 EN MT SI 物理生物化学编程,数学,社会等领域的角色扮演对话人工标注的数据集的收集 gpt-3.5-turbo 生成 下载
FLAN-Muffin 1764800 EN MT COL 60种nlp任务 人工标注的数据集的收集 下载
GPT4Tools 71446 EN MT SI a collection of tool-related instructions gpt-3.5-turbo 下载
ShareChat 1663241 EN MT MIX general instruct 收集ShareGPT 下载
Auto CoT EN 下载
ultrachat 28247446 EN 下载
StackLLaMA todo EN
Open Source Agenda is not affiliated with "Sft Datasets" Project. README Source: chaoswork/sft_datasets
Stars
347
Open Issues
2
Last Commit
11 months ago

Open Source Agenda Badge

Open Source Agenda Rating