原创 Hadoop集羣活躍節點爲0解決方案

Hadoop集羣活躍節點爲0解決方案 問題描述 我按照教程修改了Hadoop下的配置文件,然後使用start-all.sh啓動整個集羣。jps查看每個節點該啓動的進程都啓動了,可以訪問master:50070頁面,但是其中的Live No

原创 樸素貝葉斯原理及Python實現

樸素貝葉斯分類器優缺點 優點:在數據較少的情況下依然有效,可以處理多分類問題 缺點:對輸入數據的準備方式較爲敏感 使用數據類型:標稱型數據 算法原理 樸素貝葉斯分類器是基於貝葉斯概率理論構建的,即我們希望通過一個已知事務的先驗概率(條

原创 機器學習 Logistic迴歸 原理Python實現

基本思想 迴歸: 假設有一些數據點,我們用一條直線對這些數據點進行擬合(該線成爲最佳擬合直線),這個擬合過程就稱爲迴歸。 Logistic迴歸主要思想: 根據現有數據對分類邊界線建立迴歸公式,以此進行分類,使用最優化算法尋找最佳擬合參數。

原创 Mahout 用樸素貝葉斯對20 Newsgroups 數據分類的案例

源起 《Mahout in Action(Mahout 實戰)》這本書的第14.6節有一個用樸素貝葉斯對20 Newsgroups 進行數據分類的案例,但是由於該出出版使用的是mahout0.6版本進行的實驗,我用目前最新的0.13版本已

原创 Mahout random forest 隨機森林小案例

寫在前面 菜鳥真的需要耗費大量的時間各種試才能解決問題啊。。。~~o(>_<)o ~~ 首先介紹一下我嘗試的過程,大家可以參考着排排錯。 1. 我最初用的是mahout最新的0.13版本,想要按照官方給出的案例(Classifying w

原创 Hadoop MapReduce案例word count本地環境運行時遇到的一些問題

問題一 加載不到主類 原因:我一開始創建的是Map/Reduce Project, 它會直接去我本地安裝的hadoop裏面尋找相應的jar包。但是由於我一開始將hadoop放在D:\Program Files文件夾下,應爲該路徑中間有個空

原创 阿里雲E-MapReduce SSH集羣登錄及本地查看Hadoop等系統的webUI

源起:終於到了租用雲服務器的時候了,想想還有點小激動呢。EMR的官方文檔上關於ssh集羣登錄的操作步驟已經很詳細了,而且還有視頻,但是實際操作的時候總會遇到一些意想不到的問題,於是我就把我配置的過程記錄下來,以供參考。配置步驟:配置過程基

原创 Python sklearn KFold 生成交叉驗證數據集

源起:1.我要做交叉驗證,需要每個訓練集和測試集都保持相同的樣本分佈比例,直接用sklearn提供的KFold並不能滿足這個需求。2.將生成的交叉驗證數據集保存成CSV文件,而不是直接用sklearn訓練分類模型。3.在編碼過程中有一的誤

原创 Python 刪除連續出現的指定字符

源起 我本想刪寫一小段代碼用於刪除一串字符串中的連續重複的指定字符,可能也是長時間不寫代碼,而且有的時候寫代碼只途快,很多基礎知識都忘光了。我用Python寫時一切都沒有問題,就差一點,就是我隨時刪除這字符串所以每一次循環的字符串的長度都

原创 作者年份 soft computing參考文獻格式要求,LaTeX實現

如果你所投的期刊要求使用作者年份作爲索引引用參考文獻(如soft computing等),參考文獻列表不需要序號,且按作者姓氏首字母排序,如圖。你可以參考本文的方法實現。 Step1. BibTex 首先你需要使用BibTex去存放