机器学习中的牛顿法和拟牛顿法

1. 训练神经网络的5大算法

5. Levenberg-Marquardt法 (LM法)

LM法也称为衰减最小二乘法（damped least-squares method）, 不需要计算具体的海森矩阵, 使用的只有梯度向量和雅可比矩阵(Jacobian matrix).

3. 拟牛顿法

Method $B_{k+1}$ $D_{k+1}$
DFP $(I - \frac{y_k \Delta x_k^T}{y_k^T \Delta x_k})B_k(I - \frac{\Delta x_k y_k^T}{y_k^T \Delta x_k})+\frac{y_ky_k^T}{y_k^T \Delta x_k}$ $H_k + \frac{\Delta x_k \Delta x_k^T}{\Delta x_k^T y_K} - \frac{H_ky_ky_k^TH_k}{y_k^TH_ky_k}$
BFGS $B_k + \frac{y_ky_k^T}{y_k^T \Delta x_k} - \frac{B_k \Delta x_k (B_k \Delta x_k)^T}{\Delta x_k^T B_k \Delta x_k}$ $(I - \frac{\Delta x_ky_k^T}{y_k^T \Delta x_k})H_k(I - \frac{y_k \Delta x_k^T}{y_k^T \Delta x_k}) + \frac{\Delta x_k \Delta x_k^T}{y_k^T \Delta x_k}$
Broyden $B_k + \frac{y_k - B_k \Delta x_k}{\Delta x_k^T \Delta x_k} \Delta x_k^T$ $H_k + \frac{(\Delta x_k - H_ky_k) \Delta x_k^T H_k}{\Delta x_k^T H_k y_k}$
Broyden family $(1-\varphi_k)B_{k+1}^{BFGS} + \varphi_k B_k^{DEP} , \varphi \in [0,1]$
SR1 $B_k + \frac{(y_k - B_k \Delta x_k)(y_k - B_k \Delta x_k)^T}{(y_k - B_k \Delta x_k)^T \Delta x_k}$ $H_k - \frac{(\Delta x_k - H_ky_k)(\Delta x_k - H_ky_k)^T}{(\Delta x_k - H_k y_k)^T y_k}$