機器學習概要2

19 | 非參數化的局部模型:K近鄰

  • 基於實例的學習方法學的不是明確的泛化模型,而是樣本之間的關係;
  • k近鄰算法是非參數的局部化模型,具有無需訓練的優點,但分類新實例的計算複雜度較高;
  • k 近鄰算法的性能取決於超參數 k 的取值和距離的定義方式;
  • 核方法和近鄰算法都可以用於數據的概率密度估計。

20 | 基於距離的學習:聚類與度量學習

  • 聚類分析是一類描述模型,它將數據按照相似度分成不同的簇;

  • k 均值算法根據距離來判定數據的聚類;

  • 從概率角度看,k均值算法是高斯混合模型的一種特例;

  • 度量學習的任務是構造出適合於給定問題的距離度量或相似度的度量。

21 | 基函數擴展:屬性的非線性化

  • 基擴展將線性迴歸中的自變量替換爲非線性的函數,使模型能夠描述非線性關係;
  • 多項式迴歸將回歸結果表示爲屬性的多項式之和;
  • 樣條方法將回歸結果表示爲若干非線性函數的組合,可以分爲迴歸樣條和平滑樣條;
  • 廣義可加模型是對多元線性迴歸的基擴展。

22 | 自適應的基函數:神經網絡

神經網絡是一類非線性模型,利用非線性的激活函數對輸入的線性組合進行分類;

神經網絡可以通過誤差反向傳播自適應地調整網絡結構中的參數;

神經網絡中隱藏層的作用是構造出新的導出特徵;

用貝葉斯方法分析神經網絡時,需要使用近似方法來應對非線性導致的計算問題。

23 | 層次化的神經網絡:深度學習

  • 深度神經網絡是具有層次化結構的多層神經網絡;
  • 深度神經網絡採用分佈式表示,提升了網絡結構的表達能力和學習能力;
  • 深度神經網絡是一組堆疊起來的廣義線性模型;
  • 深度學習能夠找到高維數據所對應的低維流形。

24 | 深度編解碼:表示學習

  • 編解碼結構可以重構數據的表示方式,提取出高層次的特徵;
  • 自編碼器將編碼器和解碼器集成到同一個深度網絡中,是一種無監督的生成模型;
  • 卷積神經網絡和循環神經網絡都可以用來構造編解碼結構;
  • 表示學習也叫特徵學習,是讓機器自動提取數據特徵的技術。

25 | 基於特徵的區域劃分:樹模型

  • 決策樹是局部化的非參數模型;
  • 決策樹生成算法先將特徵空間劃分成若干區域,再在每個區域上擬合輸出;
  • 決策樹能夠更加靈活地刻畫不同屬性之間的相互作用;
  • 決策樹可以看成最簡單的集成模型。

26 | 集成化處理:Boosting與Bagging

  • 集成學習可以將多個弱學習器組合成強學習器,是模型的融合方法;
  • 提升方法通過重新分配數據的權重來改善弱學習器,可以提升模型的偏差性能;
  • 裝袋方法通過重新採樣數據來改善弱學習器,可以提升模型的方差性能;
  • 堆疊方法通過重新構造輸出來改善弱學習器,可以看成廣義的模型選擇。

27 | 萬能模型:梯度提升與隨機森林

  • 梯度提升決策樹和隨機森林都是在各類問題上表現優異的通用模型;
  • 梯度提升決策樹是提升方法的推廣,利用上一輪次的梯度信息構造決策樹;
  • 隨機森林是裝袋方法的推廣,利用屬性隨機化和數據隨機化構造決策樹;
  • 誤差 - 分歧分解解釋了集成學習強調基學習器多樣性的原因。

28 | 最簡單的概率圖:樸素貝葉斯

  • 樸素貝葉斯是最簡單的概率圖模型,具有發散的星型結構;
  • 樸素貝葉斯能夠計算屬性和類別的聯合分佈,因而屬於生成模型;
  • 共軛先驗可以保證先驗分佈和後驗分佈具有相同的形式和不同的參數;
  • 拉普拉斯平滑的作用是給類別設定均勻分佈的共軛先驗。

29 | 有向圖模型:貝葉斯網絡

  • 貝葉斯網絡是有向無環圖,可以用於因果推斷;
  • 貝葉斯網絡既是具有條件獨立性的隨機變量的聯合分佈,也是聯合概率分佈的因子分解結果;
  • 貝葉斯網絡中的條件獨立性可以通過 d 連通路徑和 d隔離性描述;
  • 貝葉斯網絡的概率分佈描述和獨立圖描述可以相互轉換。

30 | 無向圖模型:馬爾可夫隨機場

  • 馬爾可夫隨機場是無向圖,可以用於建模變量之間的相互作用;
  • 馬爾可夫隨機場與可以進行因子分解的吉布斯分佈等價;
  • 馬爾可夫隨機場中的條件獨立性可以分爲全局性、局部性和成對性;
  • 馬爾可夫隨機場和貝葉斯網絡可以相互轉化。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章