Coursea-吳恩達-machine learning學習筆記（二）【week 1之Linear Regression with One Variable】

線性迴歸算法中特定的符號表示：
$m$ ：表示訓練樣本的數目；
$x$ ：表示輸入的特徵；
$y$ ：表示輸出變量或目標變量；
$(x, y)$ ：表示一個訓練樣本；
$(x^{(i)}, y^{(i)})$ ：表示第 $i$ 個訓練樣本；
$h$ ：表示假設函數，表示從 $x$ 到 $y$ 的函數映射；

單變量的線性迴歸模型： $h_{θ} (x) = θ_{0} + θ_{1} x$ ；
其中， $θ_{0}, θ_{1}$ 爲模型參數；

線性迴歸算法的目標爲選擇 $θ_{0}, θ_{1}$ ，使 $h_{θ} (x)$ 最接近樣本對應的 $y$ 值，即尋找 $θ_{0} θ_{1}$ ，使

\frac{1}{2 m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)})^{2} 最 小 。

$\frac{1}{2 m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)})^{2}$ 表示平均誤差，其中， $\frac{1}{2}$ 是爲了方便後續梯度下降算法的計算。

引入代價函數的概念：

J (θ_{0}, θ_{1}) = \frac{1}{2 m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)})^{2}

代價函數也稱平方誤差函數或平方誤差代價函數，爲了評價

h_{θ} (x)

的準確性，算法的目的是讓

J (θ_{0}, θ_{1})

儘可能小。

平方誤差代價函數是解決迴歸問題最常用的手段。

算法簡化：
令 $θ_{0} = 0$ ，則 $h_{θ} (x) = θ_{1} x$ ，模型參數只剩下 $θ_{1}$ ，代價函數變爲

J (θ_{1}) = \frac{1}{2 m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)})^{2}

算法目標變爲求

min_{θ_{1}} J (θ_{1})

帶入訓練集樣本數據，發現

J (θ_{1})

是一個下凸曲線，找到令

J (θ_{1})

取值最小的

θ_{1}

。

$J (θ_{1}, θ_{0})$ 同理，可用輪廓圖表示：
$輪廓圖中同一個圓圈表示$J(\theta_1,\theta_0)$取值相同$

梯度下降算法：可以使代價函數最小化。
算法定義：
repeat until convergence{

θ_{j} := θ_{j} - α \frac{\partial}{\partial θ_{j}} J (θ_{0}, θ_{1}) (f o r j = 0 a n d j = 1)

}
：=爲賦值運算符；

α

爲一個數字，稱爲學習速率，控制梯度下降步幅。

$θ_{0}, θ_{1}$ 正確的更新方法：
$t e m p 0 := θ_{0} - α \frac{\partial}{\partial θ_{0}} J (θ_{0}, θ_{1})$
$t e m p 1 := θ_{1} - α \frac{\partial}{\partial θ_{1}} J (θ_{0}, θ_{1})$
$θ_{0} := t e m p 0$
$θ_{1} := t e m p 1$
$θ_{0}, θ_{1}$ 要同時更新。

通常將 $θ_{0}, θ_{1}$ 均初始化爲0。

注： $\frac{\partial}{\partial x}$ 爲偏導數符號， $\frac{d}{d x}$ 爲導數符號

梯度下降算法中，若 $α$ 的值取得太小，梯度下降過於緩慢；若 $α$ 的值取得太大，可能導致無法收斂，甚至發散。
在梯度下降法中，當我們接近局部最低點時，梯度下降法會自動採取更小幅度，因爲當接近局部最低點時， $\frac{\partial}{\partial θ_{j}} J (θ_{0}, θ_{1})$ 導數值自動變得越來越小。

線性迴歸算法的梯度下降：
$\begin{array}{cc} \frac{\partial}{\partial θ_{j}} J (θ_{0}, θ_{1}) & = & \frac{\partial}{\partial θ_{j}} \frac{1}{2 m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)})^{2} & = & \frac{\partial}{\partial θ_{j}} \frac{1}{2 m} \sum_{i = 1}^{m} (θ_{0} + θ_{1} x^{(i)} - y^{(i)})^{2} \end{array}$
$\begin{array}{cc} j = 0 时： \frac{\partial}{\partial θ_{0}} J (θ_{0}, θ_{1}) & = & \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) & = & \frac{1}{m} \sum_{i = 1}^{m} (θ_{0} + θ_{1} x^{(i)} - y^{(i)}) \end{array}$
$\begin{array}{cc} j = 1 时： \frac{\partial}{\partial θ_{1}} J (θ_{0}, θ_{1}) & = & \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x^{(i)} & = & \frac{1}{m} \sum_{i = 1}^{m} (θ_{0} + θ_{1} x^{(i)} - y^{(i)}) x^{(i)} \end{array}$
即：
repeat until convergence{

\begin{array}{cc} θ_{0} : & = & θ_{0} - α \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) \\ θ_{1} : & = & θ_{1} - α \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x^{(i)} \end{array} θ_{0}, θ_{1} 同 時 更 新

}

批量梯度下降法(Batch Gradient Descent)：梯度下降法最常用的形式，具體做法是在更新參數時使用所有的樣本來進行更新。

Coursea-吳恩達-machine learning學習筆記（二）【week 1之Linear Regression with One Variable】

推薦2款開源、美觀的WinForm UI控件庫

NET9 AspnetCore將整合OpenAPI的文檔生成功能而無需三方庫

Windows cmd窗口的切換目錄命令無法切換盤符

Coursea-吳恩達-machine learning學習筆記（十六）【week 9之Recommender Systems】

Coursea-吳恩達-machine learning學習筆記（十四）【week 8之Dimensionality Reduction】

Coursea-吳恩達-machine learning學習筆記（十二）【week 7之Support Vector Machines】

Coursea-吳恩達-machine learning學習筆記（九）【week 5之Neural Networks: Learning】

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結