原创 assert的使用

assertion斷言在軟件開發中是一種常用的調試方式,很多開發語言都支持這種機制。在實現中,assertion就是在程序中的一條語句,他對boolean表達式進行檢查,一個正確的程序必須保證這個bolean值是true,如果爲false

原创 刪除文件中的空行

1 sed '/^$/d' input.txt > output.txt #output file: output.txt 2 sed -i '/^$/d' input.txt #output file: input.tx

原创 could only be replicated to 0 nodes, instead of 1解決辦法

1、系統或hdfs是否有足夠空間(本人就是因爲硬盤空間不足導致異常發生)2、datanode數是否正常3、是否在safemode4、防火牆是否關閉5、關閉hadoop、格式化、重啓hadoop

原创 hadoop heap space問題

在mapred-site.xml中設置: <property>   <name>mapred.child.java.opts</name>   <v

原创 樹迴歸預測

兩種樹已經創建完畢,現在我們就進行預測:train.txt (提取碼:405c) test.txt (提取碼:72d9) def regTreeEval(model, inDat): return float(model) de

原创 Apriori算法

在討論這個算法之前需要知道什麼是頻繁項集以及關聯規則,頻繁項集是經常出現在一塊的集合,關聯規則是暗示兩種物品之間有很強的關係。今天這個算法就是解決這個問題的,首先我們討論頻繁項集,支持度是頻繁項集頻繁的一個重要指標,支持度越高說明頻繁程度

原创 Apriori2(關聯規則)

上一節我們討論了頻繁項集,這一節我們就用頻繁項集挖掘關聯規則,頻繁項集有支持度的指標,關聯規則則有可信度的指標,關於支持度一看很類似貝葉斯公式:{尿布,啤酒}/{尿布}這就算出了尿布的支持度。接下來就來看

原创 AdaBoost算法1(基於單層決策樹)

今天我們來討論一個不一樣的分類算法,這種算法叫做元算法,元算法是一種與其他算法組合在一起來使用的算法。今天我們來討論自適應boosting:在訓練數據中的每一個樣本賦予一個權重,這些權重構成向量D,開始時

原创 AdaBoost算法2(基於單層決策樹)

上節我們介紹了單層決策樹的生成算法,今天我們就利用單層決策樹創建完整的AdaBoost算法: def adaBoostTrainDS(dataArr,classLabels,numIt=40): weakClassArr = []

原创 前向逐步迴歸

接下來我們討論另一個簡單點的計算迴歸係數的方法:前向逐步迴歸。該算法屬於貪心算法,經過多次迭代計算出最佳的迴歸係數,在每次迭代中增加或減少某個權重觀察其錯誤率變化。選擇對誤差影響小的方向: def stageWise(xArr,yArr,

原创 python遇到‘\u’開頭的unicode編碼

web信息中常會遇到“\u4f60\u597d”類型的字符。首先’\u‘開頭就基本表明是跟unicode編碼相關的,“\u”後的16進制字符串是相應漢字的utf-16編碼。Python裏decode()和encode()爲我們提供瞭解碼和