原创 周志華《機器學習》圖4.4和圖4.9繪制(轉載+增加熵顯示功能)

代碼來自參考鏈接: https://blog.csdn.net/leafage_m/article/details/79629074 本文的貢獻是: ①修正參考鏈接中,算法第3種情況中的投票問題的相關代碼, 原文代碼函數makeTre

原创 python2與python3代碼互相轉化時注意事項

print不同: python2可以沒括號 python3必須有括號 淺拷貝copy用法不同 python3的用法是a=b.copy() python2的用法是a=copy.copy(b) 浮點計算不同 python2中2/3=0(想

原创 ID3決策樹中連續值的處理+周志華《機器學習》圖4.8和圖4.10繪製

轉載自 https://blog.csdn.net/Leafage_M/article/details/80137305 用一句話總結這篇博客的內容就是: 對於當前n條數據,相鄰求平均值,得到n-1個分割值,要點如下: ①連續數值特徵

原创 matplotlib中文顯示爲方塊-中文不顯示-故障原理研究與解決

matplot的字體問題,有以下3種方式 一種是從pylab中進行全局管理,可以管理任意實驗相關的字體,可以是和matplot無關的實驗的字體問題的管理 一種是matplot的配置文件,進行全局管理 一種是.py文件中臨時加入配置語句

原创 周志華《機器學習》P78圖4.4勘誤

先上代碼(代碼中包含數據集): 使用《機器學習實戰》中的ID3算法來生成我們的目標決策樹 先是繪圖代碼treePlotter.py: #-*- coding:utf-8 -*- import sys reload(sys) sys.s

原创 sklearn沒有實現ID3算法

https://stackoverflow.com/questions/32277562/how-to-set-up-id3-algorith-in-scikit-learn http://scikit-learn.org/stabl

原创 周志華《機器學習》決策樹圖4.5勘誤

根據書上的截圖,我們知道,這個圖4.5是根據表4.2的訓練集生成的,也就是說,沒有選用全部的數據集, 並且上述提到使用的信息增益,一般情況下,信息增益我們通常指的是Entropy,而不是Gini 表4.2如下: 紅色方框表示下面的

原创 《統計學習方法》P59決策樹繪製-sklearn版本

原始數據集見: https://blog.csdn.net/ruggier/article/details/78756447 這個數據集的意思是: 因爲銀行怕貸款申請者還不起貸款,所以要判斷貸款者的各種情況,以便絕對是否對貸款申請者發

原创 numpy.matrixlib.defmatrix.matrix寫入csv文件

pickle文件->矩陣->csv文件,代碼如下: import pickle from numpy import * import numpy p=open('./svmDat27','r') my_matrix=pickle.lo

原创 次梯度(subgradient)

次導數 設f在實數域上是一個凸函數,定義在數軸上的開區間內。 這種函數不一定是處處可導的,例如絕對值函數f(x) = |x| 。 對於下圖來說,對於定義域中的任何x0,我們總可以作出一條直線,它通過點(x0, f(x0)),並且要麼接

原创 svm硬間隔與軟間隔(轉)

硬間隔:完全分類準確,其損失函數不存在;其損失值爲0;只要找出兩個異類正中間的那個平面;軟間隔:允許一定量的樣本分類錯誤;優化函數包括兩個部分,一部分是點到平面的間隔距離,一部分是誤分類的損失個數;C是懲罰係數,誤分類個數在優化函數中

原创 統計學習方法第四章課後習題(轉載+重新排版+自己解讀)

4.1 用極大似然估計法推導樸素貝葉斯法中的先驗概率估計公式(4.8)和條件概率估計公式(4.9) 首先是(4.8) P(Y=ck)=∑i=1NI(yi=ck)NP({Y=c_k})=\frac {\sum_{i=1}^NI(y_i=

原创 統計學習方法-第二章課後習題答案整理

2.1Minsky和Papert指出: 感知機因爲是線性模型, 所以不能表示複雜的函數,如異或。 驗證感知機爲什麼不能表示異或 參考鏈接: https://blog.csdn.net/yangfeisc/article/details

原创 李航第一章課後習題答案

1.1 統計學習方法的三要素是模型、策略、算法。 伯努利模型是定義在取值爲0與1的隨機變量上的概率分佈。假設觀測到伯努利模型n次獨立的數據生成結果, 假定事件爲A, 其中“有k次實驗”的數值結果爲1(這裏不是概率值),這時可以用極大似

原创 SVM和感知機的區別(轉載+自己筆記)

感知機和SVM的區別: 1、相同點 都是屬於監督學習的一種分類器(決策函數)。 2、不同點 感知機追求最大程度正確劃分,最小化錯誤,效果類似紫線,很容易造成過擬合。支持向量機追求大致正確分類的同時,一定程度上避免過擬合,效果類似下圖中