《統計學習方法》學習筆記之第一章:統計學習方法概論

1.1 統計學習

1. 統計學習關於數據的基本假設是同類數據具有一定的統計規律性,這是統計學習的前提

2. 統計學習主要分爲:

  • 監督學習(supervised learning)
  • 非監督學習(unsupervised learning)
  • 半監督學習(semi-supervised learning)
  • 強化學習(reinforcement learning)

3. 本書主要討論監督學習,這種情況下統計學習的方法可以概括如下:從給定的、有限的、用於學習的訓練數據(training data)集合出發,假設數據是獨立同分布產生的;並且假設要學習的模型屬於某個函數的集合,稱爲假設空間(hypothesis space);應用某個評價準則(evaluation criterion),從假設空間中選取一個最優的模型,使它對已知訓練數據及未知測試數據(test data)在給定的評價準則下有最優的預測;最優模型的選取由算法實現。

  • 獨立同分布:指隨機過程中,任何時刻的取值都爲隨機變量,如果這些隨機變量服從同一分佈,並且互相獨立,那麼這些隨機變量是獨立同分布。

4. 實現統計學習方法的步驟如下:

  • 得到一個有限的訓練數據集合;
  • 確定包含所有可能的模型的假設空間,即學習模型的集合;
  • 確定模型選擇的準則,即學習的策略;
  • 實現求解最優模型的算法,即學習的算法;
  • 通過學習方法選擇最優模型;
  • 利用學習的最優模型對新數據進行預測或分析

5. 統計學習學科在科學技術中的重要性主要體現在以下幾個方面:

  • 統計學習是處理海量數據的有效方法。
  • 統計學習是計算機智能化的有效手段。
  • 統計學習是計算機科學發展的一個重要組成部分。(可以認爲計算機科學由三維組成:系統、計算、信息。統計學習主要屬於信息這一維,並在其中起着核心作用)

1.2 監督學習

1. 輸入空間(input space) 與輸出空間(output space):輸入與輸出所有可能取值的集合

  • 輸入與輸出空間可以是有限元素的集合,也可以是整個歐氏空間
  • 每個具體的輸入是一個實例(instance),通常由特徵向量(feature vector)表示。這時,所有特徵向量存在的空間稱爲特徵空間(feature space)。
    • 特徵空間的每一維對應於 一個特徵。
    • 模型實際上都是定義在特徵空間上的。
  • 輸入、輸出變量用大寫字母表示,習慣上輸入變量寫作X,輸出變量寫作Y。輸入、輸出變量所取的值用小寫字母表示,輸入變量的取值寫作x,輸出變量的取值寫作y。

2. 根據輸入、輸出變量的不同類型,對預測任務給予不同的名稱

  • 輸入變量與輸出變量均爲連續變量的預測問題稱爲迴歸問題;
  • 輸出變量爲有限個離散變量的預測問題稱爲分類問題;
  • 輸 入變量與輸出變量均爲變量序列的預測問題稱爲標註問題。

3. 假設空間(hypothesis space):監督學習的目的在於學習一個由輸入到輸出的映射,這一映射由模型來表示。換句話說,學習的目的就在於找到最好的這樣的模型。模型屬於由輸入空間到輸出空間的映射的集合,這個集合就是假設空間。

  • 假設空間的確定意味着學習範圍的確定。

1.3 統計學習三要素

1. 統計學習方法的三要素:模型、策略和算法。

  • 構建一種統計學習方法就是確定具體的統計學習三要素。

2. 模型

  • 在監督學習過程中,模型就是所要學習的條件概率分佈或決策函數。
  • 假設空間可以定義爲決策函數的集合
  • 我們可以將假設空間看爲一個由參數向量決定的函數族
    • 參數向量:設決策函數爲Y=a0+a1X,則每個具體的決策函數由向量θ=(a0,a1)決定。θ即爲參數向量。
    • θ取值於n維歐式空間Rn

3. 策略

  • 策略就是決定按照什麼樣的準則學習或選擇最優的模型。
  • 損失函數度量模型一次預測的好壞,風險函數度量平均意義下模型預測的好壞。
  • 損失函數和風險函數
    • 理論上,模型f(x)關於聯合分佈P(X,Y)的平均意義下的損失,稱爲風險函數期望損失,記作Rexp
      • 我們的目標就是選擇期望風險最小的模型
    •  實際上,即模型關於訓練集的平均損失稱爲經驗風險經驗損失,記作Remp
    • Rexp是模型關於聯合分佈的期望損失,經驗風險Remp(f)是模型關於訓練樣本集的平均損失。
  • 經驗風險最小化和結構風險最小化:結構風險最小化就是在經驗風險上加上表示模型複雜度的正則化項或罰項。
  • 算法:算法是指學習模型的具體計算方法。

1.4 模型評估與模型選擇

1. 如果一味的追求提高訓練的預測能力。所選模型的複雜度則往往會比真模型更高,這種現象稱爲過擬合。

1.5 正則化與交叉驗證

1. 正則化是結構風險最小化策略的實現,是在經驗風險上加一個正則化項或罰項。

2. S折交叉驗證:首先將已給數據切分成S個互不相交的大小相同的子集;然後利用S-1個子集的數據訓練模型,利用餘下的子集測試模型;將這一過程對可能的S種選擇重複進行最後選出S次評測中平均測試誤差小的模型。

1.6 泛化能力

1. 泛化能力是指由該方法學習到的模型對未知數據的預測能力。

1.7 生成模型和判別模型

1. 監督學習方法又可以分爲生成方法和判別方法。所學到的模型分別稱爲生成模型和判別模型。

  • 生成方法由數據學習聯合概率分佈P(X,Y),然後求出條件概論分佈P(Y|X)作爲預測的模型,即生成模型
  • 判別方法由數據直接學習決策函數f(x)或者條件概論分佈P(Y|X)作爲預測的模型,即判別模型

1.8 分類問題

1. 在監督學習中,當輸出變量Y取有限個離散值時,預測問題便成爲分類問題。

1.9 標註問題

1. 標註問題的輸入是一個觀測序列,輸出是一個標記序列或狀態序列。標註問題的目標在於學習一個模型,使它能夠對觀測序列給出標記序列作爲預測。

  • 標註問題是分類問題的一個推廣, 標註問題又是更復雜的結構預測(structure prediction)問題的簡單形式。

1.10 迴歸問題

1. 迴歸用於預測輸入變量(自變量)和輸出變量(因變量)之間的關係,特別是當輸入變量的值發生變化時,輸出變量的值隨之發生的變化。

2. 迴歸模型正是表示從輸入變量到輸出變量之間映射的函數。迴歸問題的學習等價於函數擬合:選擇一條函數曲線使其很好地擬合已知數據且很好地預測未知數據

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章