[李宏毅机器学习] 3. 梯度下降

您可以在我的个人博客 blog.pengwill.info 获得更好的阅读体验。

文章目录

Adagrad

标准化

梯度下降的数学原理

泰勒展开

思维导图

回顾

在Step3中，我们需要根据loss function，对参数 $\theta$ 进行优化，使用到的方法就是梯度下降算法。可以用如下的函数表示。
$\theta^{*}=\arg \min _{\theta} L(\theta)$
其中 $L$ 表示loss function， $\theta$ 表示待优化的参数。

优化的方法是使参数 $\theta$ 向其梯度方向减小，具体来说
$\theta:=\theta-\eta \nabla L\left(\theta\right)$
$\eta$ 称为学习速率，是一个超参数，需要手动进行调整。

Tip1: 调整学习速率

learning rate 太小，loss下降太慢；learning rate太大，loss震荡或者增加。建议画出随着loss值随迭代次数变化的曲线，根据曲线进行调整。

learning rate调整建议

将learning rate随迭代次数逐渐减小。在刚开始时候希望收敛的步子大一点，而在后面的时候learning rate随迭代次数逐渐减小。比如 $\eta = \frac{\eta}{\sqrt{t+1}}$ ，其中 $t$ 为迭代次数。
不同的参数设置不同的learning rate。

Adagrad

对每个参数设置不同的learning rate。在每次迭代时，将学习速率除以偏导和的均方根。

即
$\theta_i:=\theta_i-\frac{\eta}{\sigma} \frac{\partial L}{\partial \theta_i}$
其中 $\sigma$ 为Loss function对 $\theta^i$ 偏导累计和的均方根。decay项( $\frac{1}{\sqrt{t+1}}$ )和原本 $\sigma$ 中的项相消掉了。

Tip2: 随机梯度下降

传统梯度下降，迭代时需要根据所有的样本来更新loss function，进而根据loss function对参数的偏导更新参数。当样本非常多的时候，单次迭代就可能花费大量的时间。

随机梯度下降，迭代时选择一个样本点来更新loss function，再根据loss function对参数的偏导更新参数值。这样的优点是速度更快。但是由于样本中可能含有噪声，单次迭代不一定向函数减小最快的方向更新，甚至有可能迭代后loss值会增加。

Tip3: 特征缩放

采用特征缩放是为了避免数据大小或者数据的量纲不同对学习过程造成的影响。

假如当前的loss function为 $L(\theta) =\theta_0+ x_1\theta_1+x_2\theta_2$ 。其中属性 $x_1$ 的变化范围为 $-1\le x_1\le1$ ， $x_2$ 的变化范围为 $100\le x_2 \le 1000$ 。在学习过程中，因为 $|x_1|\le|x_2|$ ，所以只要 $\theta_2$ 略微变化一点，就会对 $L$ 函数值造成很大影响；相反， $\theta_1$ 的变化对函数值造成的影响不大。

我们更加希望数据的每个属性的尺度都接近。

标准化

对数据的每一个特征值，减去特征的均值，除以特征的标准差，最后可以使这个特征的均值为0，方差为1。

梯度下降的数学原理

泰勒展开

若一元函数 $h(x)$ 在 $x=x_0$ 处无限可导，则可以用多项式来逼近函数 $h(x)$
$h(x)=\sum_{k=0}^\infty\frac{h^{(k)}(x_0)}{k!}(x-x_0)^k$
二元函数的泰勒展开为：
$h(x, y) = \sum_{k=0}^\infty k!\frac{\partial^kh}{\partial x}(x-x_0)+k!\frac{\partial^kh}{\partial y}(y-y_0)$
梯度下降算法在计算损失函数值时候，实际上为在原来参数点的一阶展开，即
$\mathrm{L}(\theta) \approx \mathrm{L}(a, b)+\frac{\partial \mathrm{L}(a, b)}{\partial \theta_{1}}\left(\theta_{1}-a\right)+\frac{\partial \mathrm{L}(a, b)}{\partial \theta_{2}}\left(\theta_{2}-b\right)$

泰勒展开只在接近展开点的处的函数值是近似准确的，故需要对更新参数时加以限制，以保证在展开点附近。我们希望参数更新的时候，整体的函数值减小，即
$\mathrm{L}(\theta) - \mathrm{L}(a, b) \approx \frac{\partial \mathrm{L}(a, b)}{\partial \theta_{1}}\left(\theta_{1}-a\right)+\frac{\partial \mathrm{L}(a, b)}{\partial \theta_{2}}\left(\theta_{2}-b\right) < 0 \\ \frac{\partial \mathrm{L}(a, b)}{\partial \theta_{1}}\left(\Delta\theta_1\right)+\frac{\partial \mathrm{L}(a, b)}{\partial \theta_{2}}\left(\Delta\theta_2\right) < 0 \\ \nabla L · \Delta\theta < 0$
其中 $\nabla L$ 是一个向量，当 $\Delta\theta$ 和 $\nabla L$ 方向相反的时候，乘积为负值，且最大。故可以得出应该为梯度的反方向。同时需要注意，应该保证要在展开点的附近才可以，否则一阶泰勒展开不成立，则引入学习速率 $\eta$ ，即：
$\nabla L · \eta \Delta\theta <0$
理论上需要保证无限接近展开点，计算出的值才是准确的，实际操作过程中，保证较小并且合适的学习速率就可以。

[李宏毅机器学习] 3. 梯度下降

文章目录

思维导图

回顾

Tip1: 调整学习速率

Adagrad

Tip2: 随机梯度下降

Tip3: 特征缩放

标准化

梯度下降的数学原理

泰勒展开

TensorFlow出現Found Inf or NaN global norm的排查和解決辦法

CS224n 深度自然語言處理(三) Note - Word Window Classification, Neural Networks

知識圖譜表示學習 TransE: Translating Embeddings for Modeling Multi-relational Data

CS224n 深度自然語言處理(四) Note - Backpropagation and computation graphs

知識圖譜表示學習 TransH: Knowledge Graph Embedding by Translating on Hyperplanes

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

[李宏毅 机器学习] 3. 梯度下降

文章目录

思维导图

回顾

Tip1: 调整学习速率

Adagrad

Tip2: 随机梯度下降

Tip3: 特征缩放

标准化

梯度下降的数学原理

泰勒展开

[李宏毅机器学习] 3. 梯度下降