这是对之前的Momentum的一种改进,大概思路就是,先对参数进行估计,然后使用估计后的参数来计算误差
具体实现: 需要:学习速率 ?, 初始参数 θ, 初始速率v, 动量衰减参数α每步迭代过程:
最优化算法Nesterov Momentum牛顿动量法
原文:https://www.cnblogs.com/limingqi/p/12614883.html