莱斯杯:全国第二届“军事智能机器阅读”挑战赛 - Rank7 解决方案
莱斯杯:全国第二届“军事智能机器阅读”挑战赛 Rank7 解决方案(baseline)。
本次竞赛数据呈现如下特点:
为解决上述问题,本团队采用如下图所示的整体技术架构:
为方便后续模型训练处理,将数据集转化成 dureader 格式。由于原始文本 中包含大量噪声文本,采用的数据清洗包括:
由于文档长度较长,为保证筛选的上下文长度尽量短以及答案覆盖率,我 们采用以答案为基本中心,截取的最大长度 max_doc_len 为 1024,具体做法(此方法未进行复杂的段落筛选,简化成以答案为基本中心的裁剪):
注意,在文档长度较长且答案基本处于中间位置的情况,为避免截断过程中存在的答案位置的偏置,本方案设置了答案开始下标距离文档左边界的随机性,截断方法如下图所示:
Lucky Boys
This project is licensed under the terms of the MIT license.