Gradient Descent

梯度下降

梯度下降法自动优化 $𝑤$ 和 $𝑏$

已经建立了一个预测 $f_{w,b}(x^{(i)})$ 的线性模型：

f_{w,b}(x^{(i)}) = wx^{(i)} + b

在线性回归中，利用输入的训练数据来拟合参数 $𝑤$ , $𝑏$ ，最大限度地减小预测结果 $f_{w,b}(x^{(i)})$ 与实际数据 $y^{(i)}$ 之间的误差。这个度量称为 $𝑐𝑜𝑠𝑡$ , $𝐽(𝑤,𝑏)$ . 在训练中，您需要衡量所有训练样本的成本 $x^{(i)},y^{(i)}$

J(w,b) = \frac{1}{2m} \sum\limits_{i = 0}^{m-1} (f_{w,b}(x^{(i)}) - y^{(i)})^2

梯度下降被描述为

\begin{align*} \text{repeat}&\text{ until convergence:} \; \lbrace \newline \; w &= w - \alpha \frac{\partial J(w,b)}{\partial w} \; \newline b &= b - \alpha \frac{\partial J(w,b)}{\partial b} \newline \rbrace \end{align*}

其中，参数 𝑤，𝑏 同时更新。梯度定义如下

\begin{align} \frac{\partial J(w,b)}{\partial w} &= \frac{1}{m} \sum\limits_{i = 0}^{m-1} (f_{w,b}(x^{(i)}) - y^{(i)})x^{(i)}\\ \frac{\partial J(w,b)}{\partial b} &= \frac{1}{m} \sum\limits_{i = 0}^{m-1} (f_{w,b}(x^{(i)}) - y^{(i)}) \\ \end{align}

这里的同时是指在更新任何参数之前，先计算所有参数的偏导数

Implement Gradient Descent - 实施梯度下降

针对一个特征实施梯度下降算法。您需要三个函数

compute_gradient，执行上述公式 4
compute_cost执行上述公式 2
gradient_descent，利用计算梯度和计算成本

Conventions - 公约:

包含部分导数的 python 变量的命名也遵循这种模式， $\frac{\partial J(w,b)}{\partial b}$ 将是dj_db

w.r.t 是 with respect to 的缩写，意思是“相对与” or ”关于“，如 $𝐽(𝑤𝑏)$ 的偏导数，相对于 $𝑏$

compute_gradient - 计算梯度

compute_gradient实现了上述 4，并返回 $\frac{\partial J(w,b)}{\partial w}$ , $\frac{\partial J(w,b)}{\partial b}$ 。内嵌注释对操作进行了说明。

代码实现

import math, copy
import numpy as np
import matplotlib.pyplot as plt

# Load our data set
x_train = np.array([1.0, 2.0])   #features
y_train = np.array([300.0, 500.0])   #target value

#Function to calculate the cost
def compute_cost(x, y, w, b):
   
    m = x.shape[0] 
    cost = 0
    
    for i in range(m):
        f_wb = w * x[i] + b
        cost = cost + (f_wb - y[i])**2
    total_cost = 1 / (2 * m) * cost

    return total_cost

def compute_gradient(x, y, w, b): 
    """
    Computes the gradient for linear regression
    - 计算线性回归的梯度 
    Args 
    - 参数:
      x (ndarray (m,)): Data, m examples 
      y (ndarray (m,)): target values
      w,b (scalar)    : model parameters  
    Returns
      dj_dw (scalar): The gradient of the cost w.r.t. the parameters w
                      - 成本函数相对于参数w的梯度
      dj_db (scalar): The gradient of the cost w.r.t. the parameter b     
                      - 成本函数相对于参数b的梯度 
 
 w.r.t 是 with respect to 的缩写，意思是“相对与” or ”关于“                
     """
    
    # Number of training examples - 训练实例数量
    m = x.shape[0]    
    dj_dw = 0
    dj_db = 0
    
    for i in range(m):  
        f_wb = w * x[i] + b 
        dj_dw_i = (f_wb - y[i]) * x[i] 
        dj_db_i = f_wb - y[i] 
        dj_db += dj_db_i
        dj_dw += dj_dw_i 
    dj_dw = dj_dw / m 
    dj_db = dj_db / m 
        
    return dj_dw, dj_db
    
plt_gradients(x_train,y_train, compute_cost, compute_gradient)
plt.show()

图中介绍了梯度下降法如何利用成本对某一点参数的偏导数来更新该参数

使用compute_gradient函数查找并绘制成本函数相对于一个参数的偏导数 $𝑤0$

上图左侧显示的是 $\frac{\partial J(w,b)}{\partial w}$ 或成本曲线相对于 $𝑤$ 三个点的斜率。图中右侧的导数为正，左侧的导数为负。由于 "碗形 "的原因，导数总是会导致梯度向底部下降，而底部的梯度为零

左图固定了 $𝑏=100$ . 梯度下降将利用 $\frac{\partial J(w,b)}{\partial w}$ 和 $\frac{\partial J(w,b)}{\partial b}$ 更新参数。右侧的 "箭形图 "提供了一种查看两个参数梯度的方法。箭头大小反映了该点的梯度大小。箭头的方向和斜率反映了 $\frac{\partial J(w,b)}{\partial w}$ 和 $\frac{\partial J(w,b)}{\partial b}$ 在该点的比率。请注意，梯度点远离最小值。回顾上文公式 (3)。从 $𝑤$ 或 $𝑏$ 的当前值中减去按比例缩放的梯度值。这将使参数向降低成本的方向移动