Bagging

Resampling

we refit the model with repeatedly samples from a training set
- cross validation
- bootstrapping
1. 交叉驗證
假定有一個變量集合上能得到最小錯誤率,如果是一個很大的集合,我們隨機劃分爲訓練集和測試集(驗證集),找到用某種訓練集訓練出的在測試集上最低錯誤率的模型
LOOCV:對交叉驗證的錯誤率做平均,CV(n)=1/nni=1MSE

LOOCV the validation set
less bias simple
less variable MSE easy to implent

K-fole Cross Validatin

entropy for feature selection

信息熵
高熵即混亂而更難預測
條件熵
信息增益:IG, information gain, 作爲互信息
H(Y)H(Y|X)

H(Y)=yYp(y)logp(y)

H(Y|X)=xXp(x)yYp(y|x)logp(y|x)

更低的條件熵(更高的信息增益)即選爲最佳特徵,

嶺迴歸

消減維數,取折中,

Decision trees

決策樹
- 迴歸樹
- 分類樹
- pruning trees 剪枝
- trees vs. Linear Models

決策樹的構造過程其實就是評估所有子特徵,根據特特徵的重要性來進行分類的方法
首先需要評估各個特徵的信息熵——決定性作用最大的那個特徵作爲根節點
>

1、給定下列數據集,其中每個樣本有兩個屬性,記爲屬性A和屬性B,這些樣本分爲三類,分別記作 C1, C2, 和C3。 計算A和B的信息增益值(IG), 並基於計算的結果,給出決策樹判斷的流程。

類別 屬性A 屬性B
C3 1 2
C3 1 1
C1 1 2
C1 1 2
C1 2 2
C2 2 1
C2 3 1
C2 3 1
C2 3 1
C2 3 2

Answer:
1. the IG for A :

xX 1 2 3
yY 2C1 0C2 2C3 1C1 1C2 0C3 0C1 4C2 0C3

the IG for B

xX 1 2 3
yY 0C1 4C2 1C3 3C1 1C2 1C3 0C1 0C2 0C3

H(Y|X)=xXp(x)yYp(y|x)logp(y|x)

pA(x=1)=4/(4+2+4)=0.4
pA(x=2)=0,2
pA(x=3)=0.4

pB(x=1)=5/10=0.5
pB(x=2)=0.5
pB(x=3)=0

pA(y=c1|x=1)=2/(2+2)=0.5
pA(y=c2|x=1)=0
pA(y=c3|x=1)=0.5

pA(y=c1|x=2)=0.5
pA(y=c2|x=2)=0.5
pA(y=c3|x=2)=0

pA(y=c1|x=3)=0
pA(y=c2|x=3)=1
pA(y=c3|x=3)=0

IG_A= -0.4(0.5log0.5+0.5log0.5)-0.2(0.5log0.5+0.5log0.5)-0.4(1log1)=0.6log2=0.18
IG_B=
-0.5(0.8log0.8+0.2log0.2)-0.5(0.6log0.6+0.2log0.2+0.2log0,2)=0.315
顯然A屬性對分類來說更好,基於運算結果,會給出決策樹的流程:
A的可信度更高,因此從A開始劃分,
if(A<=1)
if(B<=1)
C3
else if(B<=2)
C1(p(C1|B)>p(C2|B)
else if (A<=2)
if(B<=1)
C2
else if(B<=2)
C1
else if(A<=3)
C2
end

Created with Raphaël 2.1.0開始A/B確認?結束yesno

Bagging

bootstrap aggregrating
多個分類器自助聚合

重採樣:重複採樣實驗,不同的分類樹,對實驗結果合成
- 分類:投票,奇數個分類器,(正樣本負樣本)多數爲勝
- 迴歸:平均,降低方差
不僅僅降低方差(variance),也可以降低誤差(bias)

貝葉斯誤差:最優誤差(Pe最小)

迴歸樹的好處:能知道哪個屬性最重要,作爲父節點

Random Forest

隨機森林

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章