機器學習實戰筆記之三(決策樹)

決策樹和k-近鄰算法:

決策樹,數據形式易於理解。

k-近鄰算法,完成很多分類任務。


決策樹的構造:

優點:計算複雜度不高,輸出結果易於理解,對中間值的缺失不敏感,可以處理不相關特徵數據。

缺點:可能會產生過度匹配問題。

適用數據類型:數值型和標稱型。


一般流程:

收集數據:可以使用任何方法。

準備數據:樹構造算法只適用於標稱型數據,因此數值型數據必須離散化。

分析數據:可以使用任何方法,構造樹完成之後,我們應該檢查圖形是否符合預期。

訓練算法:構造樹的數據結構。

測試算法:使用經驗樹計算錯誤率。

使用算法:此步驟可以適用於任何監督學習算法,而使用決策樹可以更好地理解數據的內在含義。

(另一個度量集合無序程度的方法:基尼不純度 Gini impurity,從一個數據集中隨機選取子項,度量其被錯誤分類到其他分組裏的概率。)


chapter 3.3.1 測試算法:使用決策樹執行分類

執行數據分類時,需要決策樹以及用於構造樹的標籤向量。然後,程序比較測試數據與決策樹上的數值,遞歸執行該過程直到進入葉子點;最後將測試數據定義爲葉子節點所屬的類型。


chapter 3.3.2 使用算法:決策樹的存儲

爲了節省計算時間,最好能夠在每次執行分類時調用已經構造好的決策樹。爲了解決這個問題,需要使用Python模塊pickle序列化對象,參見程序清單3-9。序列化對象可以在磁盤上保存對象,並在需要時讀取出來。任何對象都可以執行序列化操作,字典對象也不例外。


================================我是決策樹的分割線================================


尼瑪終於知道爲什麼計算結果和書上的不一樣了,隱形眼鏡那堆數據。

原來是打字員少縮進一行,我傻乎乎地連續縮進了2行。。。結果程序沒報錯,然而熵的結果完全錯誤了。(深刻教訓)



決策樹可以非常好地匹配實驗數據,然而這些匹配選項可能太多了。。。(書的原話,藉着吐槽一下)



發佈了20 篇原創文章 · 獲贊 4 · 訪問量 5萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章