機器學習概要1

模型的誤差包括三個部分:偏差(bias),方差(variance)和噪聲(noise)。

模型的設計準則

當模型本身過於複雜時,特徵和類別之間的關係中所有的細枝末節都被捕捉,主要的趨勢反而在亂花漸欲迷人眼中沒有得

到應有的重視,這就會導致過擬合(overfitting)的發生。反過來,如果模型過於簡單,它不僅沒有能力捕捉細微的相關性,甚

至連主要趨勢本身都沒辦法抓住,這樣的現象就是欠擬合(underfitting)

  • 無免費午餐定理說明模型的選取要以問題的特點爲根據;
  • 奧卡姆剃刀說明在性能相同的情況下,應該選取更加簡單的模型;
  • 過於簡單的模型會導致欠擬合,過於複雜的模型會導致過擬合;
  • 從誤差分解的角度看,欠擬合模型的偏差較大,過擬合模型的方差較大。

模型的驗證方法

由於模型的泛化性能和它的複雜度是直接掛鉤的,所以模型驗證的任務就是確定模型的複雜度以避免過擬合的發生。

  • 模型驗證的作用是選擇最佳模型並確定其性能;
  • 對數據的重採樣可以直接實現對樣本外誤差,也就是泛化誤差的估計;
  • kkk 折交叉驗證是無放回的重採樣方法;
  • 自助採樣是有放回的重採樣方法。

模型的評估指標

                                                                                       

                                                                                                           混淆矩陣

  • 在二分類任務中,模型性能度量的基本指標是精度和錯誤率,兩者之和爲1;
  • 混淆矩陣是個 2x2 的性能度量矩陣,其元素分別是真正例、假正例、假反例和真反例的數目;
  • P-R 曲線表示的是查準率和查全率之間的關係,曲線在點 (1, 1) 上達到最優性能;
  • ROC 曲線表示的是真正例率和假正例率之間的關係, 曲線在點 (0, 1) 上達到最優性能。

實驗設計

  • 實驗設計的任務是觀察一個或多個因子對實驗結果的影響;、
  • 機器學習中,實驗設計中的因子包括算法類型、超參數、數據集等;
  • 連續實驗可以用來評估多個因子對實驗的影響;
  • 響應面方法通過二次曲面的擬合尋找可變因子的最佳取值。

特徵預處理

  • 特徵縮放可以讓不同特徵的取值具有相同的尺度,方法包括標準化和歸一化;
  • 異常點會導致數據的有偏分佈,對數變換和空間標識都可以去除數據的偏度;
  • k近鄰方法和線性迴歸可以用來對特徵的缺失值進行人爲賦值;
  • 刪除不具備區分度的特徵能夠降低計算開銷,增強可解釋性。

基礎線性迴歸:一元與多元

  • 線性迴歸擬合的是高維空間上的輸出結果在由所有屬性共同定義的低維空間上的正交投影;
  • 簡單線性迴歸的統計意義可以用 t統計量和 p 值等指標描述;
  • 多元線性迴歸的統計意義可以用 F 統計量描述,但迴歸結果可能缺乏對模型的解釋能力;
  • 機器學習與統計學的區別在於機器學習重於預測,統計學則重於解釋。

正則化處理:收縮方法與邊際化

  • 正則化的作用是抑制過擬合,通過增加偏差來降低方差,提升模型的泛化性能;
  • 正則化項的作用是對解空間添加約束,在約束範圍內尋找產生最小誤差的係數;
  • 頻率視角下的正則化與貝葉斯視角下的邊際化作用相同;
  • 邊際化對未知的參數和超參數進行積分以消除它們的影響,天然具有模型選擇的功能。

13 | 線性降維:主成分的使用

  • 在有限的數據集下,數據維度過高會導致維數災難;
  • 降維的方法包括特徵選擇和特徵提取;
  • 主成分分析將原始的共線性特徵轉化爲新的正交特徵,從而實現特徵提取;
  • 概率主成分分析是因子分析的一種,是數據的生成模型。

14 | 非線性降維:流形學習

  • 流形學習是非線性的降維方法,目的在於找到與高維數據對應的低維嵌入流形;
  • 等度量映射是基於全局信息的流形學習方法,通過測地距離和歐氏距離的等效性計算流形;
  • 局部線性嵌入是基於局部信息的流形學習方法,通過局部線性係數的不變性計算流形;
  • t分佈隨機近鄰嵌入將歐氏距離映射爲相似性,利用相似性的保持計算流形。

15 | 從迴歸到分類:聯繫函數與降維

  • 在解決分類問題時,線性模型的迴歸值可以通過聯繫函數轉化爲分類結果;
  • 線性判別分析假定數據來自均值不同但方差相同的正態分佈,通過最大化類間方差與類內方差的比值計算線性邊界;
  • 邏輯迴歸計算的是不同類別的概率決策邊界,輸出的是給定數據屬於不同類別的後驗概率;
  • 基於線性模型的分類方法計算出的決策邊界是輸入屬性的線性函數。

16 | 建模非正態分佈:廣義線性模型

  • 廣義線性模型從模型解釋性和變量分佈特性上對普通線性模型做了推廣;
  • 廣義線性模型假定因變量服從指數分佈族中的概率分佈,這代表了模型中的隨機成分;
  • 廣義線性模型中的自變量和因變量依然由線性係數決定,這代表了模型中的系統成分;
  • 聯繫函數建立系統成分和隨機成分的關係,將指數分佈的自然參數表示爲自變量的線性組合。

17 | 幾何角度看分類:支持向量機

  • 支持向量機是基於線性判別式幾何意義的分類算法;
  • 支持向量機通過間隔最大化來定義最優的決策邊界;
  • 支持向量機通過對偶問題來求解最優的決策邊界;
  • 支持向量機的目標是讓結構風險最小化。

18 | 從全局到局部:核技巧

  • 支持向量機在求解最優邊界時需要利用對偶性,將原問題轉化爲對偶問題求解;
  • 在思想上,核方法將高維空間上的線性邊界轉化成低維空間上的非線性邊界;
  • 在運算上,核技巧能在低維空間中直接計算高維空間中的內積;
  • 核函數具有局部化的特點,是從全局模型到局部模型的過渡手段。

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章