1. 模型向量化(重要）

（Model Vectorization）

爲了在實際應用中計算更爲方便，例如在編程中都是使用矩陣進行計算（參考編程作業（1）線性迴歸），我們可以將整個模型向量化。

對於整個訓練集而言：

1.1 輸入輸出及參數

可以用 特徵矩陣 $X$ 來描述所有特徵，用參數向量 $\theta$ 來描述所有參數，用輸出向量 $y$ 表示所有輸出變量：
$X=\begin{bmatrix} x_0^{(1)}&x_1^{(1)}&x_2^{(1)}&···&x_n^{(1)}\\ \\ x_0^{(2)}&x_1^{(2)}&x_2^{(2)}&···&x_n^{(2)}\\ \\:&:&:&···&:\\ \\ x_0^{(m)}&x_1^{(m)}&x_2^{(m)}&···&x_n^{(m)}\\ \end{bmatrix}\ ,\ \theta=\begin{bmatrix} \theta_0\\ \\ \theta_1\\ \\:\\ \\ \theta_n \end{bmatrix}\ ,\ y=\begin{bmatrix} y^{(1)}\\ \\ y^{(2)}\\ \\:\\ \\ y^{(m)} \end{bmatrix}$ $X$ 的維度是 $m*(n+1)$ 且 $x_0=1$ ， $\theta$ 的維度爲 $(n+1)*1$ ， $y$ 的維度爲 $m*1$

1.2 假設函數

整個訓練集 的 所有假設結果 也可以用一個 $m*1$ 維的向量表示：
$h_\theta(x)=X\theta=\begin{bmatrix} x_0^{(1)}\theta_0+x_1^{(1)}\theta_1+x_2^{(1)}\theta_2+···+x_n^{(1)}\theta_n\\ \\ x_0^{(2)}\theta_0+x_1^{(2)}\theta_1+x_2^{(2)}\theta_2+···+x_n^{(2)}\theta_n\\ \\:\\ \\ x_0^{(m)}\theta_0+x_1^{(m)}\theta_1+x_2^{(m)}\theta_2+···+x_n^{(m)}\theta_n\\ \end{bmatrix}=\begin{bmatrix}h_\theta(x^{(1)})\\ \\ h_\theta(x^{(2)})\\ \\:\\ \\ h_\theta(x^{(m)}) \end{bmatrix}$

1.3 代價函數

對於代價函數，也可以向量化，先看原始的公式：
$J(θ)=\frac{1}{2m} \displaystyle\sum_{i=1}^{m} ( h_θ( x^{(i)} ) - y^{(i)}) ^2$ 由於 $(X θ - y)=\begin{bmatrix}h_\theta(x^{(1)})-y^{(1)}\\ \\ h_\theta(x^{(2)})-y^{(2)}\\ \\:\\ \\ h_\theta(x^{(m)})-y^{(m)} \end{bmatrix}$ 是一個 $m*1$ 的矩陣，故 $(X θ - y)^T$ 是一個 $1*m$ 的矩陣，因此：
$(X θ - y)^T(X θ - y)=\sum_{i=1}^m(h_θ( x^{(i)} ) - y^{(i)})^2=(X θ - y)·(X θ - y)$ 其中最後一項表示向量 $(X θ - y)$ 自身的內積（注意：內積是該向量每一項的平方之和，結果是標量）

因此代價函數就可以化簡爲： $J(θ)=\frac{1}{2m} \sum_{i=1}^{m} ( h_θ( x^{(i)} ) - y^{(i)})^2 =\frac{1}{2m} (X θ - y)^T(Xθ - y)=\frac{1}{2m} (X θ - y)·(X θ - y)$

1.4 梯度下降函數

最後，用向量來表示梯度下降，原公式爲：
$\theta_j:=\theta_j-\alpha\frac{1}{m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}$ 現用向量來表示所有參數的更新過程： $\theta=\theta-\alpha\delta$ 其中： $\theta=\begin{bmatrix} \theta_0\\ \\ \theta_1\\ \\:\\ \\ \theta_n \end{bmatrix}\ \ ,\ \ \delta=\frac{1}{m} \begin{bmatrix} \sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x_0^{(i)}\\ \\ \sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x_1^{(i)}\\ \\······\\ \\ \sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x_n^{(i)} \end{bmatrix}$

又因爲： $\delta=\frac{1}{m} \begin{bmatrix} x_0^{(1)}&x_0^{(2)}&···&x_0^{(m)}\\ \\ x_1^{(1)}&x_1^{(2)}&···&x_1^{(m)}\\ \\:&:&···&:\\ \\ x_0^{(1)}&x_0^{(2)}&···&x_0^{(m)}\\ \end{bmatrix} \begin{bmatrix} h_\theta(x^{(1)})-y^{(1)}\\ \\ h_\theta(x^{(2)})-y^{(2)}\\ \\······\\ \\ h_\theta(x^{(m)})-y^{(m)} \end{bmatrix}=\frac{1}{m}X^T(X\theta-y)$
因此，梯度下降可以表示爲：
$\theta=\theta-\alpha\frac{1}{m}X^T(X\theta-y)$

2. 正規方程

（Normal Equation）

到目前爲止，我們都在使用梯度下降算法來求解線性迴歸問題，即求偏導來尋找使代價函數得到最優解的參數。現介紹另外一種求參數 $θ$ 的方法，即正規方程（Normal Equation）：

假設我們的訓練集特徵矩陣爲 $X$ （包含了 $x_0$ ），並且我們的訓練集結果爲向量 $y$ ，則利用正規方程可以直接解出最優的參數向量 $θ$ ：
$θ=(X^TX)^{-1}X^Ty$ 上標 $T$ 代表矩陣轉置，上標 $-1$ 代表矩陣的逆。

注：對於那些不可逆的矩陣（通常是因爲特徵之間不獨立，如同時包含英尺爲單位的尺寸和米爲單位的尺寸兩個特徵，也有可能是特徵數量大於訓練集的數量），正規方程方法是不能用的。

2.1 正規方程的推導過程

在模型向量化中，我們得到代價函數：
$J(θ)=\frac{1}{2m} \sum_{i=1}^{m} ( h_θ( x^{(i)} ) - y^{(i)})^2 =\frac{1}{2m} (X θ - y)^T(Xθ - y)$ 化簡得：
$\begin{aligned} J(θ)&=\frac{1}{2m} (X θ - y)^T(Xθ - y) \\&=\frac{1}{2m}(θ^TX^T-y^T)(Xθ - y) \\&=\frac{1}{2m}(θ^TX^TXθ-θ^TX^Ty-y^TXθ+y^Ty) \end{aligned}$ 接下來對 $J(θ)$ 求偏導，需要用到以下幾個矩陣的求導法則:

$\dfrac{dAB}{B}=A^T$
$\dfrac{dX^TAX}{X}=2AX$

對 $J(θ)$ 求導得：
$\begin{aligned} \frac{\partial J(θ)}{\partial θ}&=\frac{1}{2m}(2X^TXθ - X^Ty-(y^TX)^T-0) \\&=\frac{1}{2m}(2X^TXθ - X^Ty-X^Ty-0) \\&=\frac{1}{2m}(2X^TXθ - 2X^Ty) \\&=\frac{1}{m}(X^TXθ - X^Ty) \end{aligned}$ 令 $\dfrac{\partial J(θ)}{\partial θ}=0$ ，則有：
$θ=(X^TX)^{-1}X^Ty$

2.2 梯度下降和正規方程的比較

梯度下降	正規方程
需要選擇學習率 $α$	不需要
需要多次迭代	一次運算得出，不需要迭代
當特徵數量 $n$ 很大時也能正常運行	不適合特徵數量 $n$ 很大的情況，因爲逆矩陣 $(X^TX)^{-1}$ 的計算複雜度高，運算代價大，一般 $n$ 小於10000 可接受
適用於各種類型的模型	只適用於線性模型，不適合邏輯迴歸模型等其他模型

2.3 正規方程之不可逆性

$θ=(X^TX)^{-1}X^Ty$ 通常有以下兩種原因會使矩陣 $X^TX$ 不可逆（即奇異矩陣）：

模型中有多餘的特徵（Redundant features），使得矩陣 $X^TX$ 線性相關（linearly dependent）,例如兩個特徵都是面積，但是用了不同的單位(1 m = 3.28 feet)：
- $x_1=size\ in\ feet^2$
- $x_1=size\ in\ m^2$
模型的特徵數量過多，例如 $m\leq n$ ， $m$ 爲樣本數量， $n$ 爲特徵數量
- 一般通過刪除某些特徵，或者使用正則化方法來解決 $m\leq n$ 的問題，見下一章過擬合與正則化

吳恩達機器學習（二）線性迴歸 3/3 —— 向量化及正規方程

1. 模型向量化(重要）

1.1 輸入輸出及參數

1.2 假設函數

1.3 代價函數

1.4 梯度下降函數

2. 正規方程

2.1 正規方程的推導過程

2.2 梯度下降和正規方程的比較

2.3 正規方程之不可逆性

Win10 LTSC 2019 安裝後的一些步驟

推薦2款開源、美觀的WinForm UI控件庫

NET9 AspnetCore將整合OpenAPI的文檔生成功能而無需三方庫

在Linux下管理MySQL的大小寫敏感性

經典CNN：LeNet-5，AlexNet，VGG，ResNets

吳恩達機器學習（四）過擬合與正則化

吳恩達機器學習（六）模型選擇與評估，誤差分析與優化

編程作業（python）| 吳恩達機器學習（6）支持向量機 SVM

編程作業（python）| 吳恩達機器學習（7）K-means與PCA

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結