原创 機器學習

機器學習入門 機器學習是一個非常有趣的領域,非常值得深入學習。機器學習中涉及着非常多有趣的算法,本着從實戰的角度出發,我選擇《機器學習實戰》這本書作爲主要參考書籍來學習。這本書採用Python語言來講解各個算法實例,其中不乏一些比較有實戰

原创 kNN算法

kNN算法即k-臨近算法。 算法工作原理 k-近鄰算法的一般流程 (1)收集數據:可以使用任何方法 (2)準備數據:距離計算所需要的數值,最好是結構化的數據格式 (3)分析數據:可以使用任何方法 (4)訓練數據:此步驟不適用於k-近

原创 總體規劃--大數據

主線:數據挖掘。步驟:Hadoop、相關算法、R語言 輔助:設計模式、深度學習、Linux

原创 使用Docker搭建hadoop集羣

使用Docker搭建hadoop集羣 參考文檔:http://blog.mymusise.com/?p=150 1.準備工作 1.1下載軟件 下載一些相關的文件: jdk-8u60-linux-x64.tar.gz hadoop-2

原创 Git使用(下)

Git使用(下) 1、比較提交-Git Diff 1.1、比較提交-Git Diff 你可以用git diff來比較項目中任意兩個版本的差異 git diff master..test 上面這條命令只顯示兩個分支間的差異,如果你想找出“m

原创 hadoop2.xWordCount執行過程-客戶端部分

如下展示wordCount程序的部分: WordCount public static void main(String[] args) throws Exception{ Configuration conf

原创 IK Analyzer中文分詞器

IK Analyzer中文分詞器 IK Analyzer資源下載 https://code.google.com/p/ik-analyzer/downloads/list 待寫 快捷鍵 加粗 Ctrl + B 斜體 C

原创 kafka集羣搭建

Kafka集羣搭建 背景說明 要搭建的Kafka是目前最新版本的0.9.4版本。 在搭建Kafka之前要搭建Zookeeper,這裏Zookeeper之前已經搭建好了,這裏就不在贅述了。 搭建一臺三個主機的集羣環境 集羣環境爲:

原创 hbase僞分佈式搭建

下載hbase-0.94.16.tar.gz並解壓到/home/hadoop/hbase 修改系統配置文件vim /etc/profile 保存並退出,然後source /etc/profile 修改hbase配置文件 修

原创 Ubuntu配置源

Ubuntu配置源 sudo cp /etc/apt/sources.list /etc/apt/sources.list.bak #備份 sudo vim /etc/apt/sources.list #修改 sudo apt-get u

原创 文本分類

文本分類 步驟: 1、使用IK Analyzer進行中文分詞 2、去停用詞 3、使用貝葉斯分類器進行分類