Chinese Wikipedia Corpus Creator Save

Corpus creator for Chinese Wikipedia

Project README

README written in English

中文 Wikipedia 维基百科语料库构建工具

本项目提供了工作流和脚本工具,从零开始创建中文维基百科语料库。

开始使用

克隆或者下载本 repo 至本地文件系统

系统要求&软件依赖

支持 python 3.4+, 不支持 python2

Ubuntu/Debian 用户

脚本 install_dependencies_on_ubunut.bash 会帮你自动安装好所有的依赖

其他操作系统用户

python 软件包

使用如下命令安装所需的 python 依赖:

pip install -r ./requirements.txt
非 python 软件包

需要安装 OpenCCC,用户按照官方的指示,安装即可。

Ubuntu / Debian 用户,使用 apt 命令即可:

sudo apt-get install opencc

使用

全自动脚本

allinone_process.bash

手动运行

workflow

TODO

Jieba 分词模型性能不佳,考虑替换成 LTP 或者 THULAC, 优先考虑使用 THULAC, 因为它是开源软件

Open Source Agenda is not affiliated with "Chinese Wikipedia Corpus Creator" Project. README Source: howl-anderson/chinese-wikipedia-corpus-creator
Stars
41
Open Issues
0
Last Commit
2 years ago
License

Open Source Agenda Badge

Open Source Agenda Rating