第一章 監督學習與非監督學習簡介
一、機器學習基本概念
-
概念:研究計算機怎樣模擬或實現人類的學習行爲,以獲取新的知識或技能,重新組織已有 的知識結構使之不斷改善自身的性能
-
輸入
- 基本概念
–特徵向量:特徵的集合,描繪特定的研究對象;擁有多個維度,每個維度代表一個特徵的取值
–標籤:特徵向量所屬的類別,一般與特徵向量成對出現;一般使用整數值
–數據集:特徵向量和標籤組成的集合集合
- 數據集分類
–訓練集:用於建立模型
–驗證集(非必須):用來中途檢測模型性能,從而進行調整
–測試集:用來最終檢測模型性能
- 基本概念
-
輸出:給定輸入的特徵向量,進過特定算法計算,輸出對應的標籤
-
其他概念
–經驗風險最小化:最小化在訓練集上的誤差
–過擬合:訓練集效果超羣,測試集效果直線下降
–欠擬合:訓練集效果不好,測試集效果也不好
–歸納偏置:事先對機器學習算法的一種假設,一種偏好,從概率論的角度來看,歸納偏值是加入的模型中的先驗信息。它可以減少搜索空間以及減緩過擬合
–獨立同分布條件(i.i.d條件):訓練集和測試集是從同一個數據分佈中抽取的,並且抽取的過程是獨立的(數據集的數量和質量都很重要)
二、監督學習簡介
-
概念:利用一組已知類別的樣本調整算法的參數,使其達到所要求性能的過程,也稱爲監督訓練或有教師學習
-
特徵工程
–特徵很重要(比算法還重要)
–過多特徵會增加算法的複雜性和運行時間;簡單模型更具魯棒性;有用的維度數量少的時候解釋性更強
–兩種方法
– 典型算法
A)特徵選取:向前選擇(初始空集,不斷添加特徵);向後選擇(初始滿集,不斷刪除特徵)
B)特徵提取:主成分分析(PCA);線性判別分析(LDA) -
實例
–分類:是對離散型隨機變量建模或預測的監督學習算法(即最後輸出的是特徵向量所屬的類別或者標籤,是離散值)
–迴歸:對數值型連續隨機變量進行預測和建模的監督學習算法(即最後輸出的特徵向量的標籤是連續值)
三、非監督學習簡介
- 概念:在未加標籤的數據中,試圖找到隱藏的結構
- 實例
–聚類:把相似的對象通過靜態分類的方法分成不同的組別或更多的子集,這樣讓在用同一個子集中的成員對象都有相似的一些屬性
四、常見算法簡介
-
迴歸算法(監督學習算法)
–概念:對數值型連續隨機變量進行預測和建模的監督學習算法(即最後輸出的特徵向量的標籤是連續值),即找擬合函數 -
決策時(監督學習算法,一般用於分類任務)
–概念:是一種樹形結構,其中每個內部節點表示一個屬性上的測試,每個分支代表一個測試輸出,每個葉節點代表一個類別 -
神經網絡算法(監督學習算法,一般用於分類任務)
–概念:一種模仿動物神經網絡行爲特徵,進行分佈式並行信息處理的算法數學模型。這種網絡依靠系統的複雜程度,通過調整內部大量節點之間相互連接的關係,從而達到處理信息的目的
–歷史變遷:感知器模型->全連接神經網絡->卷積神經網絡 -
SVM算法【支持向量機算法】(監督學習算法,一般用於分類任務)
–概念:目標在於在空間中尋找一個超平面,使得數據集可以被超平面分開,從而完成分類任務 -
K-Means算法(非監督學習算法,一般用於聚類任務)
–概念:算法接受參數k;然後將事先輸入的n個數據對象劃分爲k個聚類以便使得所獲得的聚類滿足:同一聚類中的對象相似度較小 -
KNN算法【K-NearestNeighbor】(監督學習算法)
–概念:如果一個樣本在特徵空間中的k個最相鄰的樣本中的大多數屬於某一個類別,則該樣本也屬於這個類別,並具有這個類別上樣本的特性 -
集成學習
–概念:是使用一系類學習器進行學習,並使用某種規則把各個學習結果進行整合從而獲得比單個學習器更好的學習效果的一種機器學習方法