Chapter 10 大规模机器学习 (reading notes)

原創

2019-02-21 23:43

文章目录

n. Reference

0. 版权声明

Machine learning 系列笔记来源于Andrew Ng 教授在 Coursera 网站上所授课程 Machine learning¹；
该系列笔记不以盈利为目的，仅用于个人学习、课后复习及交流讨论；
如有侵权，请与本人联系（[email protected]），经核实后即刻删除；
转载请注明出处；

1. 在大规模数据集上应用梯度下降算法

处理大数据集的方法：
- Stochastic gradient descent （随机梯度下降）；
- Map reduce （映射化简）；

1.1 Stochastic gradient descent （随机梯度下降）

Q：Batch gradient descent （批量梯度下降，即普通的随机梯度下降算法）与 Stochastic gradient descent （随机梯度下降）的区别？
- 批量梯度下降：每次更新梯度值时，需要考虑所有的样本；
  - $\theta_j:=\theta_j-\alpha\frac{1}{m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})x^{(i)}_j$ ，当 m 较大时，计算量较大，因此该方法不适用于大规模数据集；
- 随机梯度下降：每次更新梯度值时，只需考虑一个样本，运行速度快；
随机梯度下降算法的步骤：
- Step 1：将所有样本顺序随机排列，确保按 Step 2 中每次读取样本的顺序是随机的，同时有助于加快算法收敛；
- Step 2：
  - $cost(\theta,(x^{(i)},y^{(i)}))=\frac{1}{2}(h_\theta(x^{(i)})-y^{(i)})^2,J_{train}=\frac{1}{m}\sum_{i=1}^mcost(\theta,(x^{(i)},y^{(i)}))$ ；
    - 该步骤与普通的随机梯度下降算法相同；
  - 在两层循环for i=1:m、for i=1:n中，更新梯度 $\theta_j:=\theta_j-\alpha(h_\theta(x^{(i)})-y^{(i)})x^{(i)}_j$ ；
    - 该式中 $\frac{\partial}{\partial \theta_j}=cost(\theta,(x^{(i)},y^{(i)}))$ ；
    - 即每次读取一个样本，将所有特征参数更新一次；
    - 该方法在每次迭代时，代价函数不总是在减小，可能有些时候会增大，但最终将以迂回曲折的路径接近最小值；
    - Step 2 通常需要执行 1次，一般不超过 10 次；

1.2 Mini-Batch gradient descent （小批量梯度下降）

Q：Batch gradient descent 、Stochastic gradient descent 与 Mini-batch gradient descent 之间的区别？
A：
- Batch gradient descent：每次更新梯度值时，需要考虑所有的样本；
- Stochastic gradient descent：每次更新梯度值时，只考虑 1 个样本；
- Mini-batch gradient descent：每次更新梯度值时，只考虑 b 个样本， $1<b<m$ ；
  - $\theta_j:=\theta_j-\alpha\frac{1}{b}\sum_{k=1}^b(h_\theta(x^{(k)})-y^{(k)})x^{(k)}_j$ ；
  - b 表示 batch，需要选择合适的参数 b，常见的取值范围为 2-100；
  - 当使用向量化的方法时，小批量梯度下降算法将比随机梯度下降算法速度更快；

1.3 随机梯度下降收敛

判断随机梯度下降是否收敛的步骤：
- $cost(\theta,(x^{(i)},y^{(i)}))=\frac{1}{2}(h_\theta(x^{(i)})-y^{(i)})^2$ ；
- 在使用 $(x^{(i)},y^{(i)})$ 更新 $\theta$ 之前，计算 $cost(\theta,(x^{(i)},y^{(i)}))$ ；
- 例如，每 1000 次迭代中，求解 1000 个样本的 $cost(\theta,(x^{(i)},y^{(i)}))$ 的均值，并将所得值绘图；
  - 增大求均值的样本数量（即上例中的 1000）：
    - 优点：使曲线更加平滑，易于观察代价函数的变化趋势；
    - 缺点：增大求均值的样本数量，得到的关于算法的反馈信息有些延迟；

n. Reference

https://www.coursera.org/learn/machine-learning/home/welcome ↩︎

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

论文笔记之Structural Deep Network Embedding

本論文是kdd2016的一篇論文主要的目的也是做node embedding。主要的想法就是通過deep autoencode對node進行embedding，不過在在embedding的時候不僅考慮了1-hop的信息而且考慮

2020-07-08 10:23:34

神经网络动量因子

其中動量係數一般取（0,1），直觀上理解就是要是當前梯度方向與前一步的梯度方向一樣，那麼就增加這一步的權值更新，要是不一樣就減少更新。更詳細的介紹參見《DeepLearning最優化方法之Momentum（動量）》

2020-07-08 10:23:34

Deep Learning 之参数初始化

本文僅對常見的參數初始化方法進行總結（大部分內容來自deep learning一書），原理性的問題不進行過多的探討。 Deep Learning中參數初始化十分重要，一般來說有以下這些原因： 1.初始點的選取，有時候能夠決定算法

2020-07-08 10:23:34

Python模块调用与执行

一、模塊調用。複雜的程序都是多模塊的，所謂的模塊，在Python中就是一個py文件，不同的模塊實現不同的功能。一個模塊要調用其他模塊裏的東西，包括函數、變量等，需要“先導入模塊”。這些模塊都存放在同一目錄下，才能在一個模塊中導入並調

2020-07-08 01:59:55

Caffe Linux

1. Caffe Linux （For Ubuntu (>= 17.04)） Installing pre-compiled Caffesudo apt install caffe-cpu Installing Caffe f

2020-07-07 19:32:38

强化学习与深度强化学习理解

強化學習主要參考西瓜書和一些網上視頻加上個人理解，歡迎互動。強化學習的model如下圖所示，機器在當前狀態下做出動作a，然後環境反饋給機器下一個狀態和一個獎勵。假定狀態空間X，每一個狀態x∈X，動作空間A，每一個動作a∈A，獎

2020-07-07 17:47:36

机器学习之SVM(Hinge Loss+Kernel Trick)原理推导与解析

支持向量機（Support Vector Machine, SVM）是一類按監督學習方式對數據進行二元分類的廣義線性分類器（generalized linear classifier），其決策邊界是對學習樣本求解的最大邊距超平面。

2020-07-07 17:45:19

机器学习之K_means（附简单手写代码）

聚類是一個將數據集中在某些方面相似的數據成員進行分類組織的過程，聚類就是一種發現這種內在結構的技術，聚類技術經常被稱爲無監督學習。 k均值聚類是最著名的劃分聚類算法，由於簡潔和效率使得他成爲所有聚類算法中最廣泛使用的。給定一個數據

2020-07-07 17:45:19

PCA（1）：基础知识介绍

PCA算法思路：首先利用樣本集及特徵構建一個樣本矩陣，然後利用樣本矩陣計算得到一個協方差矩陣，再計算協方差矩陣的特徵值和特徵向量，保留特徵值前k個大的對應的特徵向量作爲新的維度方向，再將原始樣本數據轉換到新的空間維度。（

2020-07-07 15:17:22

矩阵的SVD分解（理论到计算结果）

爲什麼要用到SVD分解？從特徵值和特徵向量說起：首先回顧下特徵值和特徵向量的定義：其中A是一個m*m的實對稱矩陣，x是一個m維向量，則我們說λ是矩陣A的一個特徵值，而x是矩陣A的特徵值λ所對應的特徵向量。求出特徵值和特徵向量有什麼好

2020-07-07 15:17:20

PCA（2）：PCA算法实现的两种方式

因爲樣本個數和特徵維度的是不相等de，所以組成的矩陣不是方陣。第一種方式：特徵分解思路基於樣本特徵維度，先求協方差矩陣---->再特徵分解（因爲協方差矩陣是方陣，所以可以使用特徵分解的思路）第二種方式：SVD分解 SVD理論：htt

2020-07-07 15:17:18

Coursera吴恩达机器学习编程练习ex5——正则化线性回归与偏差和方差

1. linearRegCostFunction.m function [J, grad] = linearRegCostFunction(X, y, theta, lambda) %LINEARREGCOSTFUNCTION Comp

不跑步就等肥

2020-07-07 15:12:31

BERT预训练模型的演进过程！(附代码)

文章目錄1. 什麼是BERT2. 從Word Embedding到Bert模型的發展2.1 圖像的預訓練2.2 Word Embedding2.3 ELMO2.4 GPT2.5 BERT2.5.1 Embedding2.5.2 M

2020-07-07 14:42:00

Transformer各层网络结构详解！面试必备！(附代码实现)

文章目錄1. 什麼是Transformer2. Transformer結構2.1 總體結構2.2 Encoder層結構2.2.1 Positional Encoding2.2.2 Self-Attention2.2.3 Multi

2020-07-07 14:42:00

XLNet预训练模型，看这篇就够了！(代码实现)

文章目錄1. 什麼是XLNet2. 自迴歸語言模型（Autoregressive LM）3. 自編碼語言模型（Autoencoder LM）4. XLNet模型4.1 排列語言建模（Permutation Language Mod

2020-07-07 14:41:58

24小時熱門文章

最新文章

最新評論文章