小说人名统计和关系提取(基于HanLP)
直接使用hanlp训练好的模型,无专门自定义人名字典 自动人名统计,部分人名简称转换
python 3.7 python lib:
将书以txt后缀保存在book
目录下,并且以 utf-8 格式保存
运行如下命令
python rel.py --book book_name #注意没有txt后缀
增加人名词典,提高人名占比
能否自动发现新的人名?
1.对于一个人有多种称呼,如何匹配?
人名的简称 例如 云天明,天明 附加职称等称谓 例如:汪淼,汪教授,汪淼教授,汪总 附加亲戚关系的 例如:杨母 附加年龄信息的 例如:苏小姐,赵先生,方老太太
暂时的考虑:很难匹配,但是有些是可以匹配的
2.动态调整字典的效果?
例如第一遍粗提取,将出现多次的人名加入词典,这时提取的效果就会变好 但是对于偶尔出现的人名怎么处理?
3.识别结果名称的可信度?
根据名称列表的长度,每个名字出现的次数,以及切分出的名字的可信度?