Coursea-吳恩達-machine learning學習筆記（十四）【week 8之Dimensionality Reduction】

維數約減又稱爲降維。
使用維數約減的原因：
1. 數據壓縮(減少空間佔用，同時爲算法提速)
例1：從 $2 D \to 1 D$
存在如下圖所示樣本集， $x^{(i)} \in R^{2}$

希望找到如下圖中所示直線，把所有樣本映射到這條線上

如此，就可以使用下圖來表示樣本位置，只需要一個特徵變量即可：

$x^{(1)} \in R^{2} \to z^{(1)} \in R$
$x^{(2)} \in R^{2} \to z^{(2)} \in R$
$\dots$
$x^{(m)} \in R^{2} \to z^{(m)} \in R$

例2：從 $3 D \to 2 D$
存在如下圖所示樣本集， $x^{(i)} \in R^{3}$

把所有樣本投影到一個二維平面上，如下圖所示：

則可以使用兩個特徵值來表示樣本點的位置，如下圖：

$z^{(i)} = [\begin{matrix} z_{1}^{(i)} \\ z_{2}^{(i)} \end{matrix}]$
2. 數據可視化
當 $x^{(i)} \in R^{50}$ 時，無法有效觀察理解數據，將其降維至 $z^{(i)} \in R^{3}$ 或 $z^{(i)} \in R^{2}$ ，就可以呈現爲 $3 D$ 或 $2 D$ 的圖像。

主成分分析法(PCA)：是當前最常用的降維算法。

PCA實質爲尋找一個低維的面，把數據投射在上面，使得樣本點到面的垂直距離的平方和達到最小值。這些垂直距離也稱爲投影誤差。
更一般化的表達是：從 $n$ 維降到 $k$ 維，找到 $k$ 個向量 $u^{(1)}, u^{(2)}, \dots, u^{(k)}$ ，將樣本數據投射在這 $k$ 個向量上，使得投影誤差最小。

在應用PCA之前，通常會進行均值歸一化和特徵規範化。

訓練集： ${x^{(1)}, x^{(2)}, \dots, x^{(m)}}$
在執行PCA算法前的數據預處理：

均值歸一化
$μ_{j} = \frac{1}{m} \sum_{i = 1}^{m} x_{j}^{(i)}$
用 $x_{j}^{(i)} - μ_{j}$ 替換 $x_{j}^{(i)}$
特徵縮放(可選)
如果不同特徵值取值範圍差異較大，則進行特徵縮放，使得各特徵值具有類似的取值範圍。
用 $\frac{x_{j}^{(i)} - μ_{j}}{s_{j}}$ 替換 $x_{j}^{(i)}$ ， $s_{j}$ 表示特徵值 $x_{j}$ 的最大值-最小值或標準差。

PCA算法：
將數據從 $n$ 維降維到 $k$ 維：
$\Rightarrow$ 計算協方差矩陣： $Σ = \frac{1}{m} \sum_{i = 1}^{m} (x^{(i)}) (x^{(i)})^{T}$ (注： $Σ$ 表示希臘字母Sigma)
$O c t a v e$ 代碼：Sigma=(1/m)*X'*X 其中 $X = [\begin{matrix} {x^{(1)}}^{T} \\ {x^{(2)}}^{T} \\ ⋮ \\ {x^{(m)}}^{T} \end{matrix}]$
$\Rightarrow$ 計算矩陣 $Σ$ 的特徵向量：
$O c t a v e$ 代碼：[U,S,V]=svd(Sigma);
svd表示奇異值分解，在 $O c t a v e$ 中，也可以用eig()命令求特徵向量；
Sigma協方差矩陣是一個 $n \times n$ 矩陣；
上述語句輸出三個矩陣，我們需要的是 $U$ 矩陣，也是 $n \times n$ 矩陣；
$U$ 矩陣的列就是我們需要的向量： $U = [u^{(1)}, u^{(2)}, \dots, u^{(n)}] \in R^{n \times n}$ ；
$\Rightarrow$ 提取 $U$ 矩陣的前 $k$ 列向量組成矩陣 $U_{r e d u c e} = [u^{(1)}, u^{(2)}, \dots, u^{(k)}] \in R^{n \times k}$
$O c t a v e$ 代碼：Ureduce=U(:,1:k);
$\Rightarrow$ 我們的目的是 $x \in R^{n} \to z \in R^{k}$ ， $z = {U_{r e d u c e}}^{T} x$
其中， ${U_{r e d u c e}}^{T} \in R^{k \times n}, x \in R^{n \times 1}$ ，所以 $z \in R^{k}$
$O c t a v e$ 代碼：z=Ureduce'*x;
注：使用PCA算法， $x \in R^{n}$ ，沒有 $x_{0} = 1$ 這一項。

PCA算法壓縮數據的原始數據重構：
由上已知： $z = {U_{r e d u c e}}^{T} x$ ，我們現在需要 $z \in R^{k} \to x \in R^{n}$
所以： $x_{a p p r o x} = U_{r e d u c e} z \approx x$ ， $U_{r e d u c e}$ 爲 $n \times k$ 矩陣， $z$ 爲 $k \times 1$ 向量，故 $x_{a p p r o x}$ 爲 $n \times 1$ 向量。

PCA算法中，把 $n$ 維特徵變量降維到 $k$ 維特徵變量， $k$ 也被稱爲主成分的數量。

如何選擇 $k$ ？
兩個定義：

平均平方映射誤差： $\frac{1}{m} \sum_{i = 1}^{m} ‖ x^{(i)} - x_{a p p r o x}^{(i)} ‖^{2}$ ，表示樣本 $x$ 和其在低維平面映射點之間的距離的平方的均值。
數據的總變差： $\frac{1}{m} \sum_{i = 1}^{m} ‖ x^{(i)} ‖^{2}$ ，訓練樣本長度的平方的均值，表示訓練樣本與 $0$ 向量的平均距離。

選擇 $k$ 的法則：
使

\frac{\frac{1}{m} \sum_{i = 1}^{m} ‖ x^{(i)} - x_{a p p r o x}^{(i)} ‖^{2}}{\frac{1}{m} \sum_{i = 1}^{m} ‖ x^{(i)} ‖^{2}} ⩽ 0.01

的最小的

k

值。
此時，保留了

99 %

的差異性。

算法：
$\Rightarrow$ 用 $k = 1$ 嘗試PCA算法：
計算 $U_{r e d u c e}, z^{(1)}, z^{(2)}, \dots, z^{(m)}, x_{a p p r o x}^{(1)}, \dots, x_{a p p r o x}^{(m)}$ ；
$\Rightarrow$ 檢查 $\frac{\frac{1}{m} \sum_{i = 1}^{m} ‖ x^{(i)} - x_{a p p r o x}^{(i)} ‖^{2}}{\frac{1}{m} \sum_{i = 1}^{m} ‖ x^{(i)} ‖^{2}}$ 是否 $⩽ 0.01$ ；
$\Rightarrow$ 若符合條件，取 $k = 1$ ，若不符合條件， $k + +$ ，直到找到滿足條件的最小的 $k$ 值。

上述算法的計算過於繁雜，對該算法進行改進。

改進版算法：
$\Rightarrow$ 執行語句[U,S,V]=svd(Sigma)會得到 $S$ 矩陣；
$S$ 矩陣是一個正方形矩陣，形式爲 $[\begin{matrix} S_{11} \\ S_{22} \\ ⋱ \\ S_{n n} \end{matrix}]$
$\Rightarrow$ 對於給定的 $k$ 值，只需滿足 $1 - \frac{\sum_{i = 1}^{k} S_{i i}}{\sum_{i = 1}^{n} S_{i i}} ⩽ 0.01$ 即 $\frac{\sum_{i = 1}^{k} S_{i i}}{\sum_{i = 1}^{n} S_{i i}} ⩾ 0.99$
$\Rightarrow$ 不斷增加 $k$ 的取值來尋求滿足的條件的最小 $k$ 值。

當使用特定的 $k$ 值時，也可以用 $\frac{\sum_{i = 1}^{k} S_{i i}}{\sum_{i = 1}^{n} S_{i i}}$ 來表示PCA算法性能。

PCA算法應用

$⋆$ 監督學習算法加速
$\Rightarrow$ 存在樣本集 ${(x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)}), \dots, (x^{(m)}, y^{(m)})}$ ；
$\Rightarrow$ 提取出輸入特徵值，無標籤數據集 ${x^{(1)}, x^{(2)}, \dots, x^{(m)}} \in R^{10000}$ ；
$\Rightarrow$ 執行PCA算法，得到數據集 ${z^{(1)}, z^{(2)}, \dots, z^{(m)}} \in R^{1000}$ ；
$\Rightarrow$ 形成新的訓練樣本： ${(z^{(1)}, y^{(1)}), (z^{(2)}, y^{(2)}), \dots, (z^{(m)}, y^{(m)})}$ ；
$\Rightarrow$ 提出基於新訓練樣本的假設函數 $h_{θ} (z)$ 。
注： $x^{(i)} \to z^{(i)}$ 的映射關係是通過在訓練集上運行PCA算法定義的，這個映射關係同樣適用於交叉驗證集和測試集的輸入特徵值。

常見的PCA算法應用：

數據壓縮(節約存儲空間，算法加速)
選擇 $k$ 值，保留 $x %$ 的差異性。
數據可視化
$k = 2$ 或 $3$ 。

PCA算法誤用

$*$ 避免過擬合
用 $z^{(i)}$ 代替 $x^{(i)}$ 來減少特徵數量： $n \to k$ ，且 $k < n$ ；
因爲特徵值越少，似乎越不容易過擬合；
這方法可能會有作用，但並不是好方法，避免過擬合應該用正則化方法。

$*$ 在設計機器學習系統時，直接使用PCA算法
建議：在執行PCA算法前，首先在原始數據 $x^{(i)}$ 上執行相關算法，只有當算法收斂緩慢，佔用內存/磁盤空間很大時，再執行PCA算法，使用 $z^{(i)}$ 計算。

Coursea-吳恩達-machine learning學習筆記（十四）【week 8之Dimensionality Reduction】

Windows cmd窗口的切換目錄命令無法切換盤符

Coursea-吳恩達-machine learning學習筆記（十六）【week 9之Recommender Systems】

Coursea-吳恩達-machine learning學習筆記（十四）【week 8之Dimensionality Reduction】

Coursea-吳恩達-machine learning學習筆記（十二）【week 7之Support Vector Machines】

Coursea-吳恩達-machine learning學習筆記（九）【week 5之Neural Networks: Learning】

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結