決策樹和SVM及提升方法相關問題

決策樹若干問題

  1. 請簡述參數估計兩大學派: 頻率主義學派和貝葉斯學派的區別.
    簡要的說,頻率主義學派和貝葉斯學派探討【不確定性】這件事時的出發點與立足點不同:
    頻率主義學派認爲事物本身是服從一個分佈的(分佈是未知的),這個分佈的參數是固定的,因此,我們知道這個分佈的參數是固定的,那麼我們要做的就是考慮哪個值最有可能是那個參數值呢,於是就有了“最大似然”和“置信區間”這樣的概率理論,從名字就可以看出來它們關心的就是我們有多大把握去找出那個唯一的真實參數。
    而貝葉斯學派認爲,我們並沒有“上帝視角”,我們不能夠確定這些數據是用哪個固定參數值造出來的(參數是隨機的),因此它們關心的是參數空間的每一個值,給這些值一些它們認爲合理的假設值(先驗分佈),然後在去做實驗(證據),不斷地調整自己的假設,從而得到最後結果(後驗分佈)。
    所以頻率主義學派最常關心的是似然函數,而貝葉斯學派最常關心的是後驗分佈
    總而言之,兩者各有優缺點,頻率主義學派更具客觀性、無偏性,在一些保守領域更具優勢,而貝葉斯學派更容易構建些複雜的模型。當然頻率主義學派的太過於看中客觀事實,以至於容易被現實欺騙,比如擲硬幣,擲了無數次都是正面,從頻率學派的角度就會認爲正面出現的概率爲1;而貝葉斯學派太過於幻想,以至於想象中的很多東西很難實現,例如很難準確判斷參數的先驗分佈。

2.請論述ID3, C4.5, CART 這三種算法區別, 優點與缺點.

ID3 :其核心是根據“最大信息熵增益”原則選擇劃分當前數據集的最好特徵——信息熵是信息論裏面的概念,是信息的度量方式,不確定度越大或者說越混亂,熵就越大。
在建立決策樹的過程中,根據特徵屬性劃分數據,使得原本“混亂”的數據的熵(混亂度)減少,按照不同特徵劃分數據熵減少的程度會不一樣。在ID3中選擇熵減少程度最大的特徵來劃分數據,也就是“最大信息熵增益”原則。
優點:算法較爲簡單易於理解;
在搜索的每一步都使用當前的所有訓練樣例,大大降低了對個別訓練樣例錯誤的敏感性。
缺點:只能處理離散型屬性,並且對傾向於選擇取值較多的屬性,也容易產生過擬合:“傾向於選擇取值較多的特徵”是因爲“信息增益反映的是給定一個條件以後不確定性減少的程度,這必然是分得越細的數據集確定性更高,也就是條件熵越小,信息增益越大”。

C4.5:C4.5算法核心思想是ID3算法,是ID3算法的改進,其用信息增益率來選擇屬性,克服了用信息增益來選擇屬性時變相選擇取值多的屬性的不足;能在樹的構造過程中進行剪枝;
優點:能處理非離散化數據;能處理不完整數據。 產生的分類規則易於理解,準確率較高;並且是對ID3算法有較好的改進,可以處理連續型屬性。
缺點:
① 在構造樹的過程中,需要對數據集進行多次的順序掃描和排序,因而導致算法的低效;
② 只適合於能夠駐留內存的數據集,當訓練集大得無法在內存容納時,程序無法運行。
③ 另外其對可取值數目較少的屬性有所偏好。

CART:CART分類與迴歸樹,其實這兩種算法就是一種決策樹分類方法,採用基於最小距離的基尼指數估計函數,用來決定由該子數據集生成的決策樹的拓展形。如果目標變量是標稱的,稱爲分類樹;如果目標變量是連續的,稱爲迴歸樹。分類樹是使用樹結構算法將數據分成離散類的方法。

優點:① 這種算法非常靈活,可以允許有部分錯分成本,還可指定先驗概率分佈,可使用自動的成本複雜性剪枝來得到歸納性更強的樹。
② 在面對諸如存在缺失值、變量數多等問題時CART顯得非常穩健。

缺點:① 當樣本發生一點點的改動,就會導致樹結構的劇烈改變。
② 選擇的是最優的一個特徵來做分類決策而不是一組特徵,對準確性有所影響。

3.請簡要敘述何爲決策樹的剪枝, 以及有哪些剪枝方法, 並比較不同剪枝方法的優缺點.
① 決策樹的剪枝就是在決策樹學習中將已生成的樹進行簡化的過程,其目的是爲了避免過擬合,以降低樹的複雜度,提高泛化能力;
②剪枝類型包括預剪枝、後剪枝:
預剪枝:在構造決策樹的同時進行剪枝。所有決策樹的構建方法,都是在無法進一步降低熵的情況下才會停止創建分支的過程,爲了避免過擬合,可以設定一個閾值,熵減小的數量小於這個閾值,即使還可以繼續降低熵,也停止繼續創建分支。
後剪枝:在決策樹生長完成之後,對樹進行剪枝,得到簡化版的決策樹。剪枝的過程是對擁有同樣父節點的一組節點進行檢查,判斷如果將其合併,熵的增加量是否小於某一閾值。如果確實小,則這一組節點可以合併一個節點,其中包含了所有可能的結果。後剪枝是目前最普遍的做法。後剪枝的剪枝過程是刪除一些子樹,然後用其葉子節點代替,這個葉子節點所標識的類別通過大多數原則確定。所謂大多數原則,是指剪枝過程中, 將一些子樹刪除而用葉節點代替,這個葉節點所標識的類別用這棵子樹中大多數訓練樣本所屬的類別來標識,所標識的類稱爲大多數類。
對於二者的優缺點比較:後剪枝通常比預剪枝保留更多的分支,其欠擬合風險很小,因此後剪枝的泛化性能往往優於預剪枝決策樹。但後剪枝過程是從底往上裁剪,因此其訓練時間開銷比前剪枝要大。

SVM和提升方法

  1. 針對不同樣本,SVM有何種改進?
    (1)當訓練樣本線性可分時?
    (2)當訓練數據近似線性可分時?
    (3)當訓練數據線性不可分時?
    答:
    當訓練樣本線性可分時,利用硬間隔最大化,學習生成一個線性分類器,即線性可分支持向量機;
    當訓練數據近似線性可分時,引入鬆弛變量,利用軟間隔最大化,學習生成一個線性分類器,即線性支持向量機;
    當訓練數據線性不可分時,通過引入核函數使用核技巧及軟間隔最大化,學習非線性支持向量機。

  2. 爲何SVM要引入核函數,又有哪些常用核函數,適用於哪些情況?
    答:
    當樣本在原始空間線性不可分時,可將樣本從原始空間映射到一個更高維的特徵空間,使得樣本在這個特徵空間內線性可分。其中核函數的選擇是決定支持向量機性能的關鍵;
    根據Mercer 定理:若一個對稱函數所對應的核矩陣半正定 , 則它就能作爲核函數來使用。常用的核函數有以下幾種:
    線性核函數:〖K(x,z)=x∙z〗^,主要用於線性可分的情況,其特徵空間到輸入空間的維度是一樣的,其參數少速度快,對於線性可分數據,其分類效果很理想;
    多項式核函數:〖K(x,z)=(x∙z+1)〗^p,多項式核函數可以實現將低維的輸入空間映射到高緯的特徵空間,但是多項式核函數的參數多,當多項式的階數比較高的時候,核矩陣的元素值將趨於無窮大或者無窮小,計算複雜度會大到無法計算;
    高斯(RBF)核函數:K(x,z)=exp⁡(-〖||x-z||〗2/(2σ2 )),高斯徑向基核函數是一種局部性強的核函數,其可以將一個樣本映射到一個更高維的空間內,該核函數是應用最廣的一個,無論大樣本還是小樣本都有比較好的性能,而且其相對於多項式核函數參數要少,因此大多數情況下在不知道用什麼核函數的時候,優先使用高斯核函數;
    字符串核函數:其是定義自愛字符串集合上的核函數,其在文本分類、信息檢索、生物信息學等方面應用;
    對於核函數的選擇,有以下簡單選取方法:
    如果特徵的數量大到和樣本數量差不多,則選用LR或者線性核的SVM;
    如果特徵的數量小,樣本的數量正常,則選用SVM+高斯核函數;
    如果特徵的數量小,而樣本的數量很大,則需要手工添加一些特徵從而變成第一種情況。

  3. 訓練過程中,每輪訓練一直存在分類錯誤的問題,整個Adaboost卻能快速收斂,爲何?
    答:每輪訓練結束後,AdaBoost 都會對樣本的權重進行調整,調整的結果越到後面被錯誤分類的樣本權重會越高。而後面的分類器爲了達到較低的帶權分類誤差,會把樣本權重高的樣本分類正確。這樣造成的結果是,雖然每個弱分類器可能都有分錯的樣本,但整個 AdaBoost 卻能保證對每個樣本進行正確分類,從而實現快速收斂。

  4. 請簡述Adaboost 的優缺點.
    答:優點:能夠基於泛化性能相當弱的的學習器構建出很強的集成,不容易發生過擬合;

缺點:對異常樣本比較敏感,異常樣本在迭代過程中會獲得較高的權值,影響最終學習器的性能表現。

  1. 請簡述AdaBoost 與 GBDT 的區別.
    答:區別在於兩者boosting的策略:Adaboost通過不斷修改權重、不斷加入弱分類器進行boosting;而GBDT通過不斷在負梯度方向上加入新的樹進行boosting。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章