本系列文章只是對機器學習的入門課程《統計學習方法》(李航)做一個知識精簡
1.1統計學習
1.統計學習(statistical learning)是關於計算機基於數據構建概率統計模型並運用模型對數據進行預測和分析和一門學科。統計學習也稱爲統計機器學習(statistical machine learning).
2.主要特點:
(1)統計學習以計算機及網絡爲平臺,是建立在計算機及網絡之上的;
(2)統計學習以數據爲研究對象,是數據驅動的學科;
(3)統計學習的目的是對數據進行預測與分析;
(4)統計學習以方法爲中心,統計學習方法構建模型並應用模型進行預測與分析;
(5)統計學習是概率論、統計學、信息論、計算理論、最優化理論及計算機學科多個領域的交叉學科,並且發展中逐步形成獨自的理論體系與方法;
3.”學習“的定義:如果一個系統能夠通過執行某個過程改進它的性能,這就是學習.
4.統計學習的對象是數據(data).數據可以是存在於計算機及網絡上的各種數字、文字、圖像、視頻、音頻等及其組合.
5.統計學習關於數據的基本假設是同類數據(具有某種共同性質的數據,比如都是人臉圖像)具有一定的統計規律性,這就是統計學習的前提.
6.統計學習的目的是對數據進行預測與分析,特別是對未知新數據進行預測和分析.
7.統計學習由監督學習(supervised learning)、非監督學習(unsupervised learning)、半監督學習(semi-supervised learning)和強化學習(reinforcement learning)等組成,《統計學習方法》主要討論監督學習.
8.這種情況下的統計學習的方法可以概括如下:從給定的、有限的、用於學習的訓練數據(training data)集合出發,假設數據是獨立同分布產生的;
並且假設要學習的模型屬於某個函數的集合,稱爲假設空間(hypothesis space);
應用某個評價準則(evaluation criterion),從假設空間中選取一個最優的模型,使它對已知訓練數據及位置的測試數據(test data)在給定的評價準則下有最優預測;
最優模型的選取由算法實現;
9.假設空間、模型選取的準則(也就是評價準則)以及模型的學習算法,稱其爲統計學習方法的三要素,簡稱爲模型(model)、策略(stategy)和算法(algorithm).
10.實現統計學習方法的步驟如下:
(1)得到一個有限和訓練數據集合;
(2)確定包含所有可能的模型的假設空間,即學習模型和集合;
(3)確定模型選擇和準則,即學習策略;
(4)實現求解最優模型的算法,即學習的算法;
(5)通過學習方法選擇最優模型;
(6)利用學習的最有模型對新數據進行預測或分析.
11.統計學習的研究一般包括統計學習方法(statistical learning method)、統計學習理論(statistical learning theory)及統計學習應用(application of statistical learning)三個方面.
12.統計學習的重要性:
(1)統計學習是處理海量數據的有效方法;
(2)統計學習是計算機智能化的有效手段;
(3)統計學習是計算機學科發展的一個重要組成部分.屬於計算機三維(系統、計算、信息)中的信息維度,並在其中起核心作用.