Chinese Wikipedia Corpus Creator Versions Save

Corpus creator for Chinese Wikipedia

5 years ago

采用维基百科在2018年8月28的全量数据,使用 opencc 做了繁体中文到简体简体的转换,使用 jieba 分词,拆分多个文件

中国地区的用户，请使用下面的链接下载（下载速度快）：

文件名	下载链接
token_cleaned_plain_files.tar.bz2	https://eyun.baidu.com/s/3i6aNG0l

Supported by 百度企业云

5 years ago

采用维基百科在2018年7月份的全量数据,使用 opencc 做了繁体中文到简体简体的转换,使用 jieba 分词,拆分多个文件

中国地区的用户，请使用下面的链接下载（下载速度快）：

文件名	下载链接
token_cleaned_plain_files.tar.bz2	https://eyun.baidu.com/s/3dGTKAuH

Supported by 百度企业云