樹模型總結

簡介

  基於樹的學習算法模型的精確率高,容易解釋。與線性模型不同,基於樹的模型能夠很好的表達非線性關係

什麼是決策樹?它是如何工作的?

  決策樹是一種監督學習算法,輸入和輸出變量可以是離散值或連續值。在決策樹中,我們根據輸入變量中最具有區分性的變量,把數據集或樣本分割爲兩個或兩個以上的子集合

決策樹中的一些術語

  • 根節點:它標識整個樣本,會被進一步分割成兩個或多個子集合
  • 拆分:將一個節點分割爲兩個或多個子節點的過程
  • 決策節點:當一個子節點進一步分裂成子節點的時候,被稱爲決策節點
  • 葉子/終端節點:不會被分割的節點稱爲葉子或終端節點
  • 剪枝:拆分的反過程,通過移除決策節點的子節點
  • 分支/子樹:整個樹的子部分稱爲分支或子樹
  • 父節點和孩子節點

優點:

  • 理解和解釋起來簡單
  • 需要準備的數據量不大,其他的技術往往需要很大的數據集
  • 算法時間的複雜度是用於訓練決策樹的數據點的對數
  • 能夠處理數值型和類別型數據
  • 相對對神經網絡,解釋性比較強

缺點:

  • 決策樹可以創建複雜的樹但是沒有推廣的依據,可能會造成過擬合
  • 決策樹的結果可能不穩定,數據中一個很小的變化可能導致生成一個完全不同的樹
  • 學習最優決策樹問題是NP問題,決策樹的學習算法是基於啓發式的,如貪婪算法,每次尋找每個節點上的局部最優決策,這樣的算法不能保證返回全局最優決策樹
  • 決策樹很可能在某些類別占主導地位時創建有偏異的樹,因此建議用平衡的數據訓練決策樹

參考
https://blog.csdn.net/hit0803107/article/details/69260498
https://blog.csdn.net/xuxiatian/article/details/54340428

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章