深度学习常用优化方法详解
p1 参考 https://zhuanlan.zhihu.com/p/27297638
p2~pn 参考 http://ruder.io/optimizing-gradient-descent/index.html
p5 参考 http://cs231n.github.io/neural-networks-3/
p6 参考 https://zhuanlan.zhihu.com/p/22252270
p7 参考 https://arxiv.org/abs/1212.5701 (原始论文)