《scikit-learn機器學習 第2版》
第1章 機器學習基礎
機器學習:通過經驗學習知道未來決策
機器學習分爲監督學習和無監督學習
監督學習:分類類別已知
機器學習的輸入稱爲解釋變量,輸出稱爲響應變量
組成監督學習經驗的實例集合稱爲訓練集,衡量程序性能的實例集合稱爲測試集
常見的監督機器學習有分類和迴歸
分類的響應變量爲離散值,迴歸的響應變量爲連續值
降維:發現對響應變量變化影響最大的特徵過程
測試集:用於使用一些衡量標準來評估模型性能
注:選用測試集的策略,不把訓練集中的觀測值包含在測試集中,如果包含則很難估計算法是真的從訓練集中學習到了泛化能力,還是隻是簡單的記住了訓練例子。
過擬合:模型記住了訓練數據的程序可預測訓練集但無法預測新的例子,那模型對訓練集產生記憶稱爲過擬合。
正則化:應用於模型中減少過擬合
驗證集:用來微調被稱爲超參數的變量,超參數用於控制算法如何從訓練數據中學習
所有用於機器學習的數據集中,訓練集佔50% - 70%,測試集佔10% - 25%,餘下的則是驗證集
交叉驗證:用於訓練數據缺乏時增加模型訓練次數,方法是在同樣的數據上訓練和驗證模型,即數據分爲幾部分,這幾部分數據輪流且不重複的作爲訓練集和測試集
A | B | C | D | E | |
---|---|---|---|---|---|
交叉驗證迭代1 | 測試 | 訓練 | 訓練 | 訓練 | 訓練 |
交叉驗證迭代2 | 訓練 | 測試 | 訓練 | 訓練 | 訓練 |
交叉驗證迭代3 | 訓練 | 訓練 | 測試 | 訓練 | 訓練 |
交叉驗證迭代4 | 訓練 | 訓練 | 訓練 | 測試 | 訓練 |
交叉驗證迭代5 | 訓練 | 訓練 | 訓練 | 訓練 | 測試 |
預測誤差出現的原因包括模型的偏差和方差
偏差表示數據離真實值的遠近,方差表示數據的離散和聚合
數據離真實值遠稱爲高偏差,數據離真實值近稱爲低偏差,數據離散則爲高方差,數據聚合則爲地方差
高方差模型會過擬合訓練數據,高偏差模型會欠擬合訓練數據,所以模型會考慮偏差方差權衡
無監督學習:分類類別未知
無監督學習的作用是在數據集內發現互相管理的觀測值羣體,可以稱之爲聚類
無監督學習沒有誤差指標用於衡量,但無監督學習問題的性能指標可以衡量在數據中發現結構的一些屬性,例如聚類內部和聚類之間的距離
真陽性:true positive(TP)
真陰性:true negative(TN)
假陽性:false positive(FP)
假陰性:false negative(FN)
敏感性:陽性檢出率,sensitivity or true positive rate(TPR)
TPR = TP / (TP + FN)
特異性:陰性檢出率,specificity or true negative rate(SPC)
SPC = TN / (TN + FP)
精密度:陽性預測值,precision or positive predictive value(PPV)
PPV = TP / (TP + FP)
陰性預測值,negative predictive value(NPV)
NPV = TN / (TN + FN)
假陽性率,false positive rate(FPR)
FPR = FP / (FP + TN) = 1 - SPC
假陰性率,false negative rate(FNR)
FNR = FN / (TP + FN) = 1 - TPR
錯誤發現率,false discovery rate(FDR)
FDR = FP / (TP + FP) = 1 - PPV
準確率:accuracy(ACC)
ACC = (TP + TN) / (TP + FP + FN + TN)