原创 hadoop一些基本知識——Mapreduce shuffle和排序

Mapreduce爲了確保每個reducer的輸入都按鍵排序。系統執行排序的過程—–將map的輸出作爲輸入傳給reducer 稱爲shuffle。學習shuffle是如何工作的有助於我們理解mapreduce工作機制。shuffl

原创 Ubuntu上如何安裝gensim?

gensim支持主題模型方法LDA(潛在狄利克雷分配,Latent Dirichlet Allocation). 安裝步驟: 安裝scipy 安裝gensim 1、安裝scipy sudo pip instal

原创 Ubuntu14.10 Eclipse菜單欄消失不見

新建一個eclipse.sh文件,加入如下內容,下面的路徑是elcipse的路徑 export UBUNTU_MENUPROXY=0 /opt/eclipse/eclipse 在終端 sh ./eclipse.sh

原创 hadoop一些基本知識——Hadoop reducer類的閱讀

在Hadoop的reducer類中,有3個主要的函數,分別是:setup,clearup,reduce。代碼如下: /** * Called once at the start of the task. */

原创 Hadoop jps出現process information unavailable提示解決辦法

啓動Hadoop之後,使用jps命令查看當前系統的java進程情況,顯示: root@ubuntu:/opt/hadoop-0.20.2/bin# jps 68297 NameNode 68702 JobTracker 60622

原创 hadoop一些基本知識——hadoop HDFS文件系統的特徵

hadoop HDFS文件系統的特徵 (1)存儲極大數目的信息(terabytes萬億字節 or petabytes千萬億字節),將數據保存到大量的節點當中。支持很大單個文件。 (2)提供數據的高可靠性,單個或者多個節點不工作

原创 推薦系統評測指標—準確率(Precision)、召回率(Recall)、F值(F-Measure)

下面簡單列舉幾種常用的推薦系統評測指標: 1、準確率與召回率(Precision & Recall) 準確率和召回率是廣泛用於信息檢索和統計學分類領域的兩個度量值,用來評價結果的質量。其中精度是檢索出相關文檔數與檢索出的文檔總數的

原创 【hadoop】DataNode用jps查看無法啓動解決辦法

查看DataNode端口沒有被其他進程佔用,但是依舊用jps查看不了DataNode,此時打開hadoop,訪問http://localhost:50070,點擊頁面中的Namenode logs鏈接,在logs頁面點擊hadoo

原创 ubuntu防火牆設置

如何關閉防火牆 1、關閉ubuntu的防火牆 ufw disable 開啓防火牆 ufw enable 2、卸載了iptables apt-get remove iptables 3、關閉ubuntu中的防火牆的其餘

原创 hadoop一些基本知識——Hadoop簡介(1):什麼是Map/Reduce

Hadoop簡介 Hadoop就是一個實現了Google雲計算系統的開源系統,包括並行計算模型Map/Reduce,分佈式文件系統HDFS,以及分佈式數據庫Hbase,同時Hadoop的相關項目也很豐富,包括ZooKeeper,P

原创 hadoop一些基本知識——Mapreduce 整個工作機制圖

圖中1:表示待處理數據,比如日誌,比如單詞計數 圖中2:表示map階段,對他們split,然後送到不同分區 圖中3:表示reduce階段,對這些數據整合處理。 圖中4:表示二次mapreduce,這個是mapreduce

原创 配置Mahout——ubuntu安裝Eclipse最新版

1、訪問官方網站下載 Eclipse 最新版: Eclipse Downloads http://www.eclipse.org/downloads/?osType=linux&release=undefined 2、解壓

原创 設置ubuntu root默認密碼(初始密碼)

ubuntu安裝好後,root初始密碼(默認密碼)不知道,需要設置。 1、先用安裝時候的用戶登錄進入系統 2、輸入:sudo passwd 按回車 3、輸入新密碼,重複輸入密碼,最後提示passwd:password updat

原创 配置Mahout——ubuntu安裝java開發環境

Java環境的傻瓜式安裝步驟: 1、如果你在 Ubuntu 軟件中心安裝過 OpenJDK,請先使用如下命令將其刪除: sudo apt-get purge openjdk* 2、添加 PPA 源 sudo add-apt

原创 hadoop一些基本知識——Hadoop mapper類的閱讀

在Hadoop的mapper類中,有4個主要的函數,分別是:setup,clearup,map,run。代碼如下: protected void setup(Context context) throws IOException,