Corpus creator for Chinese Wikipedia
采用维基百科在2018年8月28的全量数据,使用 opencc 做了繁体中文到简体简体的转换,使用 jieba 分词,拆分多个文件
中国地区的用户,请使用下面的链接下载(下载速度快):
文件名 | 下载链接 |
---|---|
token_cleaned_plain_files.tar.bz2 | https://eyun.baidu.com/s/3i6aNG0l |
Supported by 百度企业云
采用维基百科在2018年7月份的全量数据,使用 opencc 做了繁体中文到简体简体的转换,使用 jieba 分词,拆分多个文件
中国地区的用户,请使用下面的链接下载(下载速度快):
文件名 | 下载链接 |
---|---|
token_cleaned_plain_files.tar.bz2 | https://eyun.baidu.com/s/3dGTKAuH |
Supported by 百度企业云