Resampling
we refit the model with repeatedly samples from a training set
- cross validation
- bootstrapping
1. 交叉驗證
假定有一個變量集合上能得到最小錯誤率,如果是一個很大的集合,我們隨機劃分爲訓練集和測試集(驗證集),找到用某種訓練集訓練出的在測試集上最低錯誤率的模型
LOOCV:對交叉驗證的錯誤率做平均,
LOOCV | the validation set |
---|---|
less bias | simple |
less variable MSE | easy to implent |
K-fole Cross Validatin
entropy for feature selection
信息熵
高熵即混亂而更難預測
條件熵
信息增益:IG, information gain, 作爲互信息
更低的條件熵(更高的信息增益)即選爲最佳特徵,
嶺迴歸
消減維數,取折中,
Decision trees
決策樹
- 迴歸樹
- 分類樹
- pruning trees 剪枝
- trees vs. Linear Models
決策樹的構造過程其實就是評估所有子特徵,根據特特徵的重要性來進行分類的方法
首先需要評估各個特徵的信息熵——決定性作用最大的那個特徵作爲根節點
>
1、給定下列數據集,其中每個樣本有兩個屬性,記爲屬性A和屬性B,這些樣本分爲三類,分別記作 C1, C2, 和C3。 計算A和B的信息增益值(IG), 並基於計算的結果,給出決策樹判斷的流程。
類別 | 屬性A | 屬性B |
---|---|---|
C3 | 1 | 2 |
C3 | 1 | 1 |
C1 | 1 | 2 |
C1 | 1 | 2 |
C1 | 2 | 2 |
C2 | 2 | 1 |
C2 | 3 | 1 |
C2 | 3 | 1 |
C2 | 3 | 1 |
C2 | 3 | 2 |
Answer:
1. the IG for A :
1 | 2 | 3 | |
---|---|---|---|
2C1 0C2 2C3 | 1C1 1C2 0C3 | 0C1 4C2 0C3 |
the IG for B
1 | 2 | 3 | |
---|---|---|---|
0C1 4C2 1C3 | 3C1 1C2 1C3 | 0C1 0C2 0C3 |
IG_A= -0.4(0.5log0.5+0.5log0.5)-0.2(0.5log0.5+0.5log0.5)-0.4(1log1)=0.6log2=0.18
IG_B=
-0.5(0.8log0.8+0.2log0.2)-0.5(0.6log0.6+0.2log0.2+0.2log0,2)=0.315
顯然A屬性對分類來說更好,基於運算結果,會給出決策樹的流程:
A的可信度更高,因此從A開始劃分,
if(A<=1)
if(B<=1)
C3
else if(B<=2)
C1(p(C1|B)>p(C2|B)
else if (A<=2)
if(B<=1)
C2
else if(B<=2)
C1
else if(A<=3)
C2
end
Bagging
bootstrap aggregrating
多個分類器自助聚合
重採樣:重複採樣實驗,不同的分類樹,對實驗結果合成
- 分類:投票,奇數個分類器,(正樣本負樣本)多數爲勝
- 迴歸:平均,降低方差
不僅僅降低方差(variance),也可以降低誤差(bias)
貝葉斯誤差:最優誤差(Pe最小)
迴歸樹的好處:能知道哪個屬性最重要,作爲父節點
Random Forest
隨機森林