machine Algorithm總結

構造決策樹的思路如下;
(1)選擇屬性放在根結點,爲每個可能的屬性值產生一個分支
(2)將樣本集劃分爲多個子集,每個子集對應一個分支
(3)在每個分支上遞歸重複這個過程,僅使用真正到達這個分支的樣本
(4)如果在一個節點上所有樣本擁有相同的類別,即停止該部分樹的擴展
構造決策樹的方法如下:ID3&C4.5&CART
構建決策樹的算法所用的策略:ID3(information gain)、C4.5(Gain Ration)、CART(Gini Index)
構造決策樹停止的時間如下:one:定義一個停止樹進一步生長的條件;two:生成完全的樹後再進行剪枝。

其中算法ID3根據信息增益多的屬性進行劃分數據集,選擇好分裂屬性後就開始進行構造決策樹
信息量的計算公式:

I(x)=-log p(x)

信息熵的計算公式如下:

H(x)=求和從1到n(p(xi)I(xi))

KNN(K nearest Neighbor)k最近鄰算法
其中K表示接近自己的k個樣本
算法思路:
(1)計算已知類別數據集中每個點與當前點的距離
(2)選取與當前點距離最小的k個點
(3)統計前k個點中每個類別的樣本出現的頻率
(4)返回前k個點中出現頻率最高的類別作爲當前點的預測類別

發佈了50 篇原創文章 · 獲贊 16 · 訪問量 4萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章