機器學習實戰筆記之三（決策樹）

原創

柒安

2020-02-22 08:36

決策樹和k-近鄰算法：

決策樹，數據形式易於理解。

k-近鄰算法，完成很多分類任務。

決策樹的構造：

優點：計算複雜度不高，輸出結果易於理解，對中間值的缺失不敏感，可以處理不相關特徵數據。

缺點：可能會產生過度匹配問題。

適用數據類型：數值型和標稱型。

一般流程：

收集數據：可以使用任何方法。

準備數據：樹構造算法只適用於標稱型數據，因此數值型數據必須離散化。

分析數據：可以使用任何方法，構造樹完成之後，我們應該檢查圖形是否符合預期。

訓練算法：構造樹的數據結構。

測試算法：使用經驗樹計算錯誤率。

使用算法：此步驟可以適用於任何監督學習算法，而使用決策樹可以更好地理解數據的內在含義。

（另一個度量集合無序程度的方法：基尼不純度 Gini impurity，從一個數據集中隨機選取子項，度量其被錯誤分類到其他分組裏的概率。）

chapter 3.3.1 測試算法：使用決策樹執行分類

執行數據分類時，需要決策樹以及用於構造樹的標籤向量。然後，程序比較測試數據與決策樹上的數值，遞歸執行該過程直到進入葉子點；最後將測試數據定義爲葉子節點所屬的類型。

chapter 3.3.2 使用算法：決策樹的存儲

爲了節省計算時間，最好能夠在每次執行分類時調用已經構造好的決策樹。爲了解決這個問題，需要使用Python模塊pickle序列化對象，參見程序清單3-9。序列化對象可以在磁盤上保存對象，並在需要時讀取出來。任何對象都可以執行序列化操作，字典對象也不例外。

================================我是決策樹的分割線================================

尼瑪終於知道爲什麼計算結果和書上的不一樣了，隱形眼鏡那堆數據。

原來是打字員少縮進一行，我傻乎乎地連續縮進了2行。。。結果程序沒報錯，然而熵的結果完全錯誤了。（深刻教訓）

決策樹可以非常好地匹配實驗數據，然而這些匹配選項可能太多了。。。（書的原話，藉着吐槽一下）

柒安

發佈了20 篇原創文章 · 獲贊 4 · 訪問量 5萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

機器學習實戰筆記之三（決策樹）

決策樹和k-近鄰算法：

決策樹的構造：

一般流程：

chapter 3.3.1 測試算法：使用決策樹執行分類

chapter 3.3.2 使用算法：決策樹的存儲

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

笨辦法學python的筆記之六（ex36 設計和調試）

python id()

笨辦法學python的筆記之七（ex37 複習各種符號）

笨辦法學python的筆記之八（ex42 class類）

機器學習實戰筆記之一（調試NumPy）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結