利用深度学习实现中文分词
使用TensorFlow实现基于深度学习的中文分词
本项目使用python3
编写,没有支持python2
的计划。
注:本项目主要是为了进行中文分词等相关自然语言处理研究而创建,暂时不推荐在正式的生产环境使用,另外本项目目前还在开发阶段
pip install tensorflow
clone本项目至本地.
运行文件init.py
,生成训练用数据
在本项目文件夹下创建一个文件,在里面添加如下代码并运行:
from seg_dnn import SegDNN
import constant
cws = SegDNN(constant.VOCAB_SIZE,50,constant.DNN_SKIP_WINDOW)
print(cws.seg('我爱北京天安门')[0])
详细示例可见文件test.py
seg_dnn.py
: 使用(感知机式)神经网络进行中文分词,对应论文1seg_lstm.py
: 使用LSTM神经网络进行中文分词,对应论文2seg_mmtnn.py
: 使用MMTNN网络进行中分分词,对应论文3prepare_data.py
: 预处理语料库,包括msr和pkuinit.py
: 用于生成进行训练和测试的数据的脚本文件seg_dnn.py
)seg_lstm.py
)seg_mmtnn.py
)pip