Key Value MemNN Save Abandoned

“Key-Value Memory Networks for Directly Reading Documents”的tensorflow实现方案，使用的数据集是MovieQA

Project README

key-value-MemNN

这是论文“Key-Value Memory Networks for Directly Reading Documents”的tensorflow实现方案，使用的数据集是MovieQA，基于KB知识库作为知识源进行建模。

其结构图如下所示：

首先我们看一下模型仿真出来的网络架构，如下图所示：

但是模型的仿真效果比较差，如下图所示，acc一直上不去，而且loss维持在10附近居高不下。到了训练后期

到了训练后期loss反而逐渐升高，模型无法收敛，如下图所示==

观察了模型运行过程中的一些参数，发现原因可能出现在B矩阵的身上，如下图，在训练后期也初夏大规模的震荡。所以对模型做出了改进：

改进的方案是添加一个bias，来减少B矩阵的偏置。此外，去看了FaceBook官网给出的模型训练的参数，发现embedding-size取得500，

而且，max_slots取得1000还是多少，所以尝试按照其参数进行训练（发现训练速度极慢无比）。

所以最后作出的调整是：

1，给B矩阵添加bais

2，进行梯度截断，截断值去10

3，将max_slots增大至300

4，将embedding_size增大至200

按照上述方案进行训练，速度还可以接受，而且在模型收脸上也收到了很好的效果，如下图所示：

而且B矩阵虽然仍有尖峰存在，但是相对而言已经减少了很多，如下

训练过程的输出如下所示，结合上图可以发现，最起码训练集上的acc可以到达0.8~0.9，loss也维持在1附近。但是仍然存在缺点就是测试集上的效果还不够好，准确度只有0.3左右。这是接下来要进行解决的问题：

========================================================更新=========================================================== 这几天又做了几个对比试验，效果有提升但是还没有达到理想状态，先来更新一下。

首先根据上面的结果呢，我就在思考，为什么准确度和loss波动这么大，而且验证集效果这么差呢。后来想到一个致命的问题，那就是

我们在处理数据的时候，如果一个QA对有好几个答案，我们就会把它作为好几条训练样本，这样就导致了，相同的特征和问题，但是却有

好几个不一样的标签，也就是样本本身就有冲突，这是模型解决不了的。所以改进的第一个问题就是智取第一个答案作为训练样本。结果如下所示：

从上那个图可以发现，训练及准确度提升到了100%，loss降到了0，而且震荡现象也改善了。说明我们的模型取得了巨大的进步。

但是，仍然存在一个问题就是测试集效果依然不好，准确度只有40%多。于是我加了dropout功能，在dropout之分别取0.5和0.8的时候结果如下图所示：

从上图可以发现，dropout程度越厉害，训练集效果越差，测试集的改善也并不明显，而且又重新出现了B矩阵的尖峰现象。很是诡异，等我再挑挑参数看看效果吧。

Open Source Agenda is not affiliated with "Key Value MemNN" Project. README Source: lc222/key-value-MemNN

Stars

Open Issues

Last Commit

6 years ago

Open Source Agenda Badge

<a href="https://www.opensourceagenda.com/projects/key-value-memnn"><img src="https://www.opensourceagenda.com/projects/key-value-memnn/reviews/badge.svg" alt="Open Source Agenda"></a>

Submit Review Review Your Favorite Project

Submit Resource Articles, Courses, Videos

Submit Article Submit a post to our blog

From the blog

Dec 11, 2022

How to Choose Which Programming Language to Learn First?

From the blog

Dec 11, 2022