機器學習（八）——學習理論

8.學習理論

1.交叉驗證

k-折交叉驗證

將數據集劃分爲k份，每次選取一份作爲測試數據，其他的爲訓練數據。重複k次。計算每次錯誤的平均值。以此驗證模型的性能。

隨機將訓練集 $S$ 切分成 $k$ 個不相交的子集。其中每一個子集的規模爲 $m/k$ 個訓練樣本。這些子集爲 $S_1,\cdots,S_k$
對每個模型 $M_i$ ，我們都按照下面的步驟進行評估(evaluate):

對 $j=1,\cdots,k$
- 在 $S_1\cup\cdots\cup S_{j-1}\cup S_{j+1}\cup\cdots\cup S_k$ (也就是除了 $S_j$ 之外的其他數據)，對模型 $M_i$ 得到假設 $h_{ij}$ 。接下來針對 $S_j$ 使用假設 $h_{ij}$ 進行測試，得到經驗誤差 $\hat\epsilon_{S_{cv}}(h_{ij})$
  
  對 $\hat\epsilon_{S_{cv}}(h_{ij})$ 取平均值，計算得到的值就當作是模型 $M_i$ 的估計泛化誤差（estimated generalization error）
選擇具有最小估計泛化誤差(lowest estimated generalization error)的模型 $M_i$ 的，然後在整個訓練樣本集 $S$ 上重新訓練該模型。這樣得到的假設 (hypothesis)就可以輸出作爲最終結果了。

2.特徵選擇

向前搜索

初始化一個集合爲空集 $\mathcal F=\emptyset$
循環下面的過程{

(a) 對於 $i=1,\cdots,n$ 如果 $i\notin \mathcal F$ ，則令 $\mathcal F_i=\mathcal F\cup \{i\}$ ，然後使用某種交叉驗證來評估特徵 $\mathcal F_i$

(b) 令 $\mathcal F$ 爲(a)中最佳特徵子集

}
整個搜索過程中篩選出來了最佳特徵子集(best feature subset)，將其輸出。

算法的外層循環可以在 $\mathcal F=\{1,\cdots,n\}$ 達到全部特徵規模時停止，也可以在 $|\mathcal F|$ 超過某個預先設定的閾值時停止（閾值和你想要算法用到特徵數量最大值有關）。

向後搜索

從 $\mathcal F = \{1, ..., n\}$ ，即規模等同於全部特徵開始，然後重複，每次刪減一個特徵，直到 $\mathcal F$ 爲空集時終止。

過濾器特徵選擇

一種思路是使用 $x_i$ 和 $y$ 之間的相關係數的值(或其絕對值)，這可以在訓練樣本數據中算出。這樣我們選出的就是與分類標籤(class labels)的關係最密切的特徵值(features)。實踐中，通常（尤其當特徵 $x_i$ 爲離散值(discrete-valued features)）選擇 $x_i$ 和 $y$ 的互信息( mutual information, ${\rm{MI}}(x_i, y)$ ) 來作爲 $S(i)$ 。
${\rm{MI}}(x_i, y)=\sum_{x_i\in\{0, 1\}}\sum_{y\in\{0,1\}}p(x_i,y)\log\frac{p(x_i,y)}{p(x_i)p(y)}$
(上面這個等式假設了 $x_i$ 和 $y$ 都是二值化；更廣泛的情況下將會超過變量的範圍。)上式中的概率 $p(x_i,y)$ ， $p(x_i)$ 和 $p(y)$ 都可以根據它們在訓練集上的經驗分佈(empirical distributions)而推測(estimated)得到。

要對這個信息量分值的作用有一個更直觀的印象，也可以將互信息(mutual information)表達成 $KL$ 散度(Kullback-Leibler divergence，也稱 $KL$ 距離，常用來衡量兩個概率分佈的距離):
${\rm{MI}}(x_i,y)={\rm KL}(p(x_i,y)\,\|\,p(x_i)p(y))$

3.貝葉斯統計和正則化

在本章的開頭部分，我們談到了使用最大似然(maximum likelihood，縮寫爲 ML)來進行參數擬合，然後根據下面的式子來選擇參數:
$\theta_{\rm ML}=\arg \max_{\theta}\prod_{i=1}^{m}p(y^{(i)}|x^{(i)};\theta)$
給定一個訓練集合 $S = \{(x^{(i)},y^{(i)})\}^m_{i=1}$ ，
$\begin{aligned} p(S|\theta)&=\prod_{i=1}^{m}p(y^{(i)}|x^{(i)},\theta)\\ p(S,\theta)&=p(S|\theta)p(\theta)=\prod_{i=1}^{m}p(y^{(i)}|x^{(i)},\theta)p(\theta)\\ p(S)&=\int_{\theta} {p(S,\theta)}d\theta=\int_{\theta} {\left(\prod_{i=1}^{m}p(y^{(i)}|x^{(i)},\theta)p(\theta)\right)}d\theta \end{aligned}$
當我們被要求對一個新的 $x$ 的值進行預測的時候，我們可以計算在參數上的後驗分佈 (posterior distribution):
$\begin{aligned} p(\theta|S) &=\frac{p(S|\theta)p(\theta)}{p(S)}\\ &=\frac{(\prod_{i=1}^{m}p(y^{(i)}|x^{(i)},\theta))p(\theta)}{\int_{\theta} {\left(\prod_{i=1}^{m}p(y^{(i)}|x^{(i)},\theta)p(\theta)\right)}d\theta}\qquad \end{aligned}$
在上面的等式中， $p(y^{i)}|x^{(i)},\theta)$ 來自你所用的機器學習問題中的模型。例如，如果你使用貝葉斯邏輯迴歸(Bayesian logistic regression)，你可能就會選擇 $p(y^{(i)}|x^{(i)},\theta)=h_\theta(x^{(i)})^{y^{(i)}} (1-h_\theta(x^{(i)}))^{(1-y^{(i)})}$ 其中， $h_\theta(x^{(i)})=1/(1+\exp(-\theta^Tx^{(i)}))$ .

若有一個新的測試樣本 $x$ ，然後要求我們對這個新樣本進行預測，我們可以使用 $\theta$ 上的後驗分佈(posterior distribution)來計算分類標籤(class label)上的後驗分佈:
$\begin{aligned} p(y|x,S)&=\int_\theta p(y|x,\theta)p(\theta|S)d\theta\qquad \\ \end{aligned}$
在上面這個等式中， $p(\theta|S)$ 來自等式 (1)。例如，如果目標是要根據給定的 $x$ 來預測對應的 $y$ 的值，那就可以輸出 $^4$ :

4 如果 $y$ 是一個離散值(discrete-valued)，那麼此處的積分(integral)就用求和(summation)來替代。

$E[y|x,S]=\int_y y p(y|x,S)dy$

這裏我們簡單概述的這個過程，可認爲是一種“完全貝葉斯 (fully Bayesian)”預測，其中我們的預測是通過計算相對於 $\theta$ 上的後驗概率 $p(\theta|S)$ 的平均值而得出的。然而很不幸，這個後驗分佈的計算通常是比較困難的。這是因爲這個計算需要對 $\theta$ 進行積分(integral)，而 $\theta$ 通常是高維度的(high-dimensional)，這通常是不能以閉合形式 (closed-form)來實現的。

因此在實際應用中，我們都是用一個與 $\theta$ 的後驗分佈 (posterior distribution)近似的分佈來替代。常用的一個近似是把對 $\theta$ 的後驗分佈（正如等式 $(2)$ 中所示）替換爲一個單點估計(single point estimate)。對 $\theta$ 的最大後驗估計 (MAP，maximum a posteriori estimate)爲:
$\theta_{MAP}=\arg \max_\theta \prod_{i=1}^{m} p(y^{(i)}|x^{(i)})p(\theta)$
注意到了麼，這個式子基本和對 $\theta$ 的最大似然估計(ML (maximum likelihood) estimate)是一樣的方程，除了末尾多了一個先驗概率分佈 $p(\theta)$ 。實際應用裏面，對先驗概率分佈 $p(\theta)$ 的常見選擇是假設 $\theta\sim N(0 , \tau ^2I)$ 。

機器學習（八）——學習理論

8.學習理論

1.交叉驗證

k-折交叉驗證

2.特徵選擇

向前搜索

向後搜索

過濾器特徵選擇

3.貝葉斯統計和正則化

機器學習（八）——學習理論

批量excel轉csv

Spark修改爲python3.6.5

SpringBoot部署docker

機器學習（十三）——獨立成分分析(ICA)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結