1.何謂“學習”
學習(Mitchell 1997定義):對某類任務T和性能度量P,一個計算機程序被任務可以從經驗E中學習是指,通過經驗E改進後,它在任務T上由性能度量P衡量的性能有所提升。
2.任務T
分類
輸入缺失分類
迴歸
轉錄:機器學習系統觀測一些相對非結構化表示的數據,並轉錄信息爲離散的文本形式。
機器翻譯
結構化輸出:結構化輸出任務的輸出是向量或者其他包含多個值的數據結構,並且構成輸出的這些不同元素間具有重要關係。
合成和採樣:
缺失值填補
去噪
密度估計或概率質量函數估計
3.性能度量
均方誤差
錯誤率
正確率
4.容量、過擬合、欠擬合
泛化:在先前未觀測到的輸入上表現良好的能力被稱爲泛化(generalization)。
機器學習和優化不同的地方在於,我們也希望泛化誤差(也被稱作測試誤差)很低。泛化誤差被定義爲新輸入的誤差期望。這裏,期望的計算基於不同的可能輸入,這些輸入來自於系統在現實中遇到的分佈。
決定機器學習算法效果是否好的因素:
1.降低訓練誤差。
2.縮小訓練誤差和測試誤差的差距。
這兩個因素對應機器學習的兩個主要挑戰:欠擬合(unbefitting)和過擬合(overfitting)。
欠擬合是指模型不能在訓練集上獲得足夠低的誤差。過擬合是指訓練誤差和測試誤差之間的差距太大。
通過調整模型的容量,我們可以控制模型是否偏向於過擬合或者欠擬合。通俗地,模型的容量是指其擬合各種函數的能力。容量低的模型可能很難擬合訓練集。容量高的模型可能會過擬合,因爲記住了不適用於測試集的訓練集性質。
過擬合現象:如果我們使用高階多項式,變量(特徵)過多,那麼這個函數能夠很好的擬合訓練集,但是卻會無法泛化到新的數據樣本中(泛化:一個假設模型能夠應用到新樣本的能力)。
應對過擬合的方法:
- 減少變量的個數:捨棄一些變量,保留更爲重要的變量。但是,如果每個特徵變量都對預測產生影響。當捨棄一部分變量時,也就捨棄了一些信息。所以,希望保留所有的變量。
- 正則化:保留所有的變量,將一些不重要的特徵的權值置爲0或權值變小使得特徵的參數矩陣變得稀疏,使每一個變量都對預測產生一點影響。
正則化的思想就是減少高次項的值,使得曲線平滑。
表示正則化參數,在算法實際運行過程中,要選擇合適的值,不能使其過大,否則可能會導致過擬合不能被消除,或者梯度下降算法不收斂。
正則化參數要做的就是控制兩個目標之間的平衡關係:在最小化訓練誤差的同時正則化參數使模型簡單。
1.最小化誤差是爲了更好的擬合訓練數據。
2.正則化參數是爲了防止模型過分擬合訓練數據。
所以正則化參數要保證模型簡單的基礎上使模型具有很好的泛化性能。
正則化範數:L_0範數,L_1範數,L_2範數。
具體可參考:
https://blog.csdn.net/speargod/article/details/80233619
5.最大似然估計
最大似然估計是一種統計方法,它用來求一個樣本集的相關概率密度函數的參數。這個方法最早是遺傳學家以及統計學家羅納德·費雪爵士在1912年至1922年間開始使用的。“似然”是對likelihood 的一種較爲貼近文言文的翻譯,“似然”用現代的中文來說即“可能性”。故而,若稱之爲“最大可能性估計”則更加通俗易懂。
- 最大似然估計的原理
給定一個概率分佈D,假定其概率密度函數(連續分佈)或概率聚集函數(離散分佈)爲fD,以及一個分佈參數θ,我們可以從這個分佈中抽出一個具有n個值的採樣,通過利用fD,我們就能計算出其概率:
但是,我們可能不知道θ的值,儘管我們知道這些採樣數據來自於分佈D。那麼我們如何才能估計出θ呢?一個自然的想法是從這個分佈中抽出一個具有n個值的採樣X1,X2,...,Xn,然後用這些採樣數據來估計θ。
一旦我們獲得,我們就能從中找到一個關於θ的估計。最大似然估計會尋找關於 θ的最可能的值(即,在所有可能的θ取值中,尋找一個值使這個採樣的“可能性”最大化)。這種方法正好同一些其他的估計方法不同,如θ的非偏估計,非偏估計未必會輸出一個最可能的值,而是會輸出一個既不高估也不低估的θ值。
要在數學上實現最大似然估計法,我們首先要定義可能性:
並且在θ的所有取值上,使這個函數最大化。這個使可能性最大的值即被稱爲θ的最大似然估計。