從DT到Random Forest、GBDT

決策樹

基礎的內容,參考的鏈接:
http://leijun00.github.io/2014/09/decision-tree/

  • ID3

    • 最基礎的決策樹,多叉樹,僅能處理離散型值
    • 採用信息增益來處理 g(D,A)=H(D)−H(D|A)
    • 會偏向有較多屬性的feature,容易過擬合
  • C4.5

    • 對ID3的改進
    • 對於連續值,進行劃分。假設是min,k1,k2,…,max的劃分,依次嘗試劃分的方式,計算最佳劃分
    • 採用信息增益比率,避免了偏向較多屬性feature
    • 處理缺失值(填充or忽略)
  • CART

    • 用基尼純淨度來衡量
    • 二叉樹的形式
  • 迴歸樹

    • 採用平方誤差損失求解最優的切分變量和切分點
    • 每個葉子節點的輸出就是一個值

Random Forest

GBDT

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章