《統計學習方法》讀書筆記——第一章統計學習方法概論

總結:本章主要是介紹一些基本的概念,起到統攬全書的作業。

1.1 統計學習

統計學習是基於數據構建概率模型並運用模型對數據進行預測分析的學科。

統計學習由監督學習、非監督學習、半監督學習、強化學習等組成。這本書主要討論監督學習。

1.2 監督學習

輸入空間:所有可能的輸入值

輸出空間:所有可能的輸出值

假設空間:簡單說就是可能的模型的集合

聯合概率分佈:P(x,y)表示。舉個例子,打靶的時候,命中點(x,y)的概率就是P(x,y)

監督學習又分爲迴歸問題、分類問題、標註問題。簡單的說,迴歸問題是輸入輸出都是連續變量的問題,分類問題是輸入可連續也可離散,但輸出是離散的問題,標註問題是輸入輸出都是序列的問題。

監督學習的過程就是選擇一個模型,在訓練集下產生輸出f(x)使得f(x)儘可能接近訓練集中數據對應的輸出結果y,學習系統不斷的調整模型,最終使得f(x)與y的差達到最小。

1.3 模型、策略、算法三要素

統計學習三要素:模型、策略、算法

我的理解:模型對應着函數,策略對應着代價函數或者說經驗風險,算法對應着優化方式(如梯度下降等)

損失函數常用的有這麼四類:

                1)0-1損失函數:  

                2)平方損失函數:

                3)絕對損失函數:

                4)對數損失函數:

這裏有一個邏輯問題:我們要使得損失函數值最小,就是要使得損失函數的期望最小,而損失函數的期望計算要用到P(x,y),聯合概率分佈是未知的(如果知道聯合概率分佈的話就不用學習了,直接用概率分佈就可以算出結果)。因此理想狀態下減少損失函數的期望是不可能實現。這時候人們一般使用平均損失(經驗風險)來代替期望損失。在數據量足夠足夠大的情況下,二者趨近於相同,但在數據量有限的情況下,就會產生一系列的問題,因此需要矯正。(機器學習中的正則化、欠擬合、過擬合等等問題其實都來源於此)

兩種策略:經驗風險最小化和結構風險最小化(正則化)

1.4、1.5 模型評估與選擇、正則化

這裏主要就是介紹過擬合(模型過於複雜而數據量又相對少,導致模型在訓練集上表現良好但泛化能力差)、正則化(在經驗風險項後面加上一個正則化項,加上的項可以使W的L1範數也可以是L2範數)

L1範數:向量各元素絕對值之和

L2範數:向量各元素平方和開根號

交叉驗證:

               1)簡單交叉驗證:將數據集分爲訓練和測試兩部分(如7:3)訓練集訓練,測試集評價模型

               2)S折交叉驗證:將數據集分爲S份,S-1份用於訓練,1份用於測試,重複進行。當S=N時,就是留一交叉驗證

1.6 泛化能力

現實中一般通過測試誤差來評價學習方法的泛化能力

1.8 分類問題

評價分類器的指標有精確率、召回率、F1 Score。

精確率:簡單的說就是你說“正”的裏面有多少是真正的“正”。

召回率:簡單的說就是所有“正”的裏面有多少你說了是“正”

F1值:精確率和召回率的調和平均值

1.10 迴歸問題

可以看做是函數擬合

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章