決策樹分類器DecisionTreeClassifier參數解釋

原創

2020-04-28 17:14

sklern中使用sklearn.tree.DecisionTreeClassifier類來實現決策樹分類算法。
模型調參常用參數如下：

名稱	功能	描述
criterion	特徵選擇標準	‘gini’ or ‘entropy’ (default=”gini”)，前者是基尼係數，後者是信息熵。兩種算法差異不大對準確率無影響，信息墒雲孫效率低一點，因爲它有對數運算.一般說使用默認的基尼係數”gini”就可以了，即CART算法。除非你更喜歡類似ID3, C4.5的最優特徵選擇方法。
splitter	特徵劃分標準	‘best’ or ‘random’ (default=”best”) 前者在特徵的所有劃分點中找出最優的劃分點。後者是隨機的在部分劃分點中找局部最優的劃分點。默認的”best”適合樣本量不大的時候，而如果樣本數據量非常大，此時決策樹構建推薦”random” 。
max_depth	決策樹最大深度	int or None, optional (default=None) 一般來說，數據少或者特徵少的時候可以不管這個值。如果模型樣本量多，特徵也多的情況下，推薦限制這個最大深度，具體的取值取決於數據的分佈。常用的可以取值10-100之間。常用來解決過擬合。
min_impurity_decrease	節點劃分最小不純度	float, optional (default=0.) 這個值限制了決策樹的增長，如果某節點的不純度(基尼係數，信息增益，均方差，絕對差)小於這個閾值，則該節點不再生成子節點。 sklearn 0.19.1版本之前叫 min_impurity_split
min_samples_split	內部節點再劃分所需最小樣本數	int, float, optional (default=2) 如果是 int，則取傳入值本身作爲最小樣本數；如果是 float，則去 ceil(min_samples_split * 樣本數量) 的值作爲最小樣本數，即向上取整。
min_samples_leaf	葉子節點最少樣本數	如果是 int，則取傳入值本身作爲最小樣本數；如果是 float，則去 ceil(min_samples_leaf * 樣本數量) 的值作爲最小樣本數，即向上取整。這個值限制了葉子節點最少的樣本數，如果某葉子節點數目小於樣本數，則會和兄弟節點一起被剪枝。
max_leaf_nodes	最大葉子節點數	int or None, optional (default=None) 通過限制最大葉子節點數，可以防止過擬合，默認是”None”，即不限制最大的葉子節點數。如果加了限制，算法會建立在最大葉子節點數內最優的決策樹。如果特徵不多，可以不考慮這個值，但是如果特徵分成多的話，可以加以限制，具體的值可以通過交叉驗證得到。
min_impurity_split	信息增益的閥值	決策樹在創建分支時，信息增益必須大於這個閥值，否則不分裂 min_weight_fraction_leaf 葉子節點最小的樣本權重和 float, optional (default=0.) 這個值限制了葉子節點所有樣本權重和的最小值，如果小於這個值，則會和兄弟節點一起被剪枝。默認是0，就是不考慮權重問題。一般來說，如果我們有較多樣本有缺失值，或者分類樹樣本的分佈類別偏差很大，就會引入樣本權重，這時我們就要注意這個值了。
class_weight	類別權重	dict, list of dicts, “balanced” or None, default=None 指定樣本各類別的的權重，主要是爲了防止訓練集某些類別的樣本過多，導致訓練的決策樹過於偏向這些類別。這裏可以自己指定各個樣本的權重，或者用“balanced”，如果使用“balanced”，則算法會自己計算權重，樣本量少的類別所對應的樣本權重會高。當然，如果你的樣本類別分佈沒有明顯的偏倚，則可以不管這個參數，選擇默認的”None” 不適用於迴歸樹 sklearn.tree.DecisionTreeRegressor

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

商品期貨套利 - 多品種網格對沖模型註釋版

商品期貨套利 - 多品種網格對沖模型註釋版 #### 代碼： // 商品期貨套利 - 多品種網格對沖模型註釋版 function Hedge(q, e, positions, symbolA, symbolB, hedge

2020-07-08 12:36:35

區塊鏈資產量化策略之多平臺對沖穩定套利 V2.1 (註釋版)

多平臺對沖穩定套利 V2.1 (註釋版) 對沖策略是風險較小，較爲穩健的一類策略，和俗稱“搬磚策略”有些類似，區別是搬磚需要轉移資金，提幣，充幣。在這個過程中容易出現價格波動引起虧損。對沖是通過在不同市場同時買賣交易，在交易

2020-07-08 12:36:34

聚寬數據下載工具

聚寬是個非常棒的平臺，回測用的數據洗的非常乾淨，沒有未來信息的問題。最近聽說他們發新產品了，祝賀! 如果經常用聚寬的話，會經常需要把聚寬研究環境中自己分析數據的結果下載下來，我做了個小工具，能批量自動下載聚寬上保存的文件。用到了sele

2020-07-05 16:33:04

免費的A股實時數據下載方案（新浪財經）

新浪財經實時深度和成交數據： github：https://github.com/QuantGin/Quant_For_All import sys from mylog import mylog logger=mylog(sys.ar

2020-07-05 16:33:04

免費的A股實時數據下載方案（騰訊財經）

騰訊財經深度數據： github：https://github.com/QuantGin/Quant_For_All import requests import sys import threading from mylog impo

2020-07-05 16:33:04

Agent Inspired Trading Using Recurrent Reinforcement Learning and LSTM Neural Networks論文解析

爲什麼要翻譯這篇文章本人利用DNN和RNN做了深度強化學習的策略，本質上是一個基於策略梯度的強化學習，翻看這個作者的論文發現，核心思路是一模一樣的，差別在於細節的處理，先說說和作者的相似之處：用神經網絡來表示一個確定

2020-07-02 22:58:56

量化交易（二）---------海龜交易法則

前面介紹瞭如何獲取數據，本文將直接介紹一種經典的交易策略，實際上這套方法在市場中大部分情況時有效的，但是在市場沉浮中，每個人都很難嚴格執行，大部分人都是覺得自己已經掌握了，甚至還有自己的想法，然後靈活的動一些小腦筋，殊不知

2020-07-01 05:07:37

量化交易（一）---------財經數據社區Tushare介紹

前段時間美國金融市場劇烈動盪，公司的股票也是過山車，當然A股還是萬年王八，繼續保持“穩健”，本來安心做自動駕駛的心也被撩撥了，總是在暢想，最低一塊多時All in，該如何如何......... 與其飄忽不定，不

2020-07-01 05:07:37

【量化交易】循環、多股票策略【006】

本文是量化交易零基礎入門教程中的一篇，點擊藍字鏈接可查看該系列詳情。摘要學習用 list 存儲多個股票學習使用 for 循環學習寫一個簡單的多股票策略自測與自學我們繼續以如下這個簡單的策略爲例進行學習在策略中操作多個股票。

2020-07-01 01:33:07

【量化交易】獲取典型常用數據【007】

本文是量化交易零基礎入門教程中的一篇，點擊藍字鏈接可查看該系列詳情。摘要聚寬數據獲取指數成分股獲取股票行情數據獲取股票財務數據自測與自學聚寬數據在聚寬數據這個頁面可以看到聚寬平臺集成好的各大類數據，如下圖，點擊可以查看詳情

2020-07-01 01:33:07

【量化交易】加油

這是一個面向零編程基礎的量化交易新手入門教程，力求讓高中生知識水平的人都能學會量化交易最基本的知識，快速邁過第一道門檻，從而具備進一步自主深入學習的能力。特點從零開始教編程。靠譜的量化交易學習資源稀少，且具有不講編程、代碼較難、過多

2020-07-01 01:33:07

【量化交易】 python 基本語法與變量【003】策略複習一下

本文是量化交易零基礎入門教程中的一篇，點擊藍字鏈接可查看該系列詳情。摘要 python 是什麼 python 的基礎語法變量與賦值 Python 保留字符打印 print 全局變量基本數據類型 - 數字與字符串算術運算查看數據

2020-07-01 01:33:07

【量化交易】初識量化交易 001

本文是量化交易零基礎入門教程中的一篇，點擊藍字鏈接可查看該系列詳情。摘要爲什麼需要量化交易？量化交易是做什麼？量化交易的價值何在？做量化交易需要什麼？聚寬是什麼？零基礎如何快速入門量化交易？自測與自學量化交易比傳統交易強

2020-07-01 01:33:07

【量化交易】策略評價與建立模擬【008】

本文是量化交易零基礎入門教程中的一篇，點擊藍字鏈接可查看該系列詳情。摘要評價策略回測的指標建立模擬交易未來函數運行過慢過擬合策略失效收益與風險的取捨自測與自學在學習瞭如何編寫策略後，我們將介紹下評價策略回測的指標，如何

2020-07-01 01:33:07

【量化交易】SciPy-Python科學算法庫安裝、附帶切換python版本、及python虛擬環境路徑問題解決。

SciPy庫提供了大量有用的函數和類，用來解決各種專業領域的問題。本文翻譯自Jupyter nbviewer中的第三講。首先，介紹了一些特殊函數，如貝塞爾函數，這對物理學問題的計算提供了方便；之後是各種數值積分問題，常微分方程求解問題

2020-07-01 01:33:06

24小時熱門文章

最新文章

最新評論文章