-->
不一定要沿梯度方向下降?
通过不同的方向 来探测/估计当前地形?
如何衡量 zigzig 的程度——如果从历史的迭代中学习掌握规律?
动量方法 --> 数据驱动~ 每个方向算一个偏导数,根据偏导数来决定当前的方向?
步长呢?——可以动量方法一把?dogleg 方法试探性地步长减半?