Only windows+hadoop(不需要任何其他軟件)+MapReduce Sample

最近數據庫要用到hadoop。大家基本上都用的是linux。本人一直不喜歡linux,雖然windows確實有各種額外的問題,但是我對於linux一直有一種討厭的感覺。網上查了很多資料,windows配置hadoop的也有,但是要不就是比較古老,要不就是太麻煩(什麼eclipse,cygwin等等,看得我頭昏腦漲)。我想要的就是純淨的hadoop,不用其他任何東西。爲此特意寫了這篇博客,僅僅需要hadoop和windows系統就可以了。下面詳述(其實這個youtube上面有相關視頻,wiki上面也有介紹,但還是比較繁瑣。我這裏整理一下)


1.安裝java。

這裏就不必說了。直接安裝java jdk就可以了。這裏我才用的是1.6版本。安裝完成之後設置環境變量JAVA_HOME,並且把系統變量裏面的path添加“JAVA_HOME/bin;


這一步的作用是可以在命令行隨便調用java。設置完成之後在命令行打入java -version就可以看到版本好了(看不到的應該是環境變量沒設置好,注意分號)


2.安裝hadoop

直接下載windows版本的hadoop即可(不需要編譯,但是一定要搞清楚是32位的還是64位的,否則會出現各種問題),根本不需要裝什麼cygwin亂七八糟的。我這裏用的是2.3.0版本(因爲下載之後我們需要修改hadoop的端口等設置,而網上有現成的2.3的修改文件,所以這裏爲了方面我也採用這個了,其他版本也可以,不過需要你手動改配置文件)。2.3的文件格局如下所示。


然後下載替換的配置文件,解壓縮覆蓋源文件即可(主要就是設置一些端口什麼的,有興趣的可以看一下)


完成上面兩部,hadoop就配置成功了。不需要任何其他額外步驟!!

下面用一個簡單地例子看看hadoop怎麼運行

我們以計算兩個文件中每個字符的個數爲例:

1.首先新建兩個文件wordcount1.txt和wordcount2.txt,分別寫入以下內容:



2 建立hdfs文件夾。


這個我也是剛看,理解不是很深。我的理解就是建立一套hadoop的文件系統,這和windows的完全不一樣,千萬別搞混!!!

首先進入bin文件夾下面,執行:

然後會有許多命令飛過。你應該看到以下兩行:


這就建立好了hdfs的文件系統。然後我們需要啓動。進入sbin文件夾:


這就成功啓動了。

接下來我們就要看看這個hdfs是怎麼工作的。

進入到bin文件夾下面,並執行hadoop fs -ls /(這條命令打印出根目錄下的所有文件。別忘記有斜槓,表示根目錄)。如果你什麼都沒做,應該什麼都沒有

然後你可以新建一個文件夾(是hdfs系統的,再次注意和windows沒有任何關係!!)

執行命令式 hadoop fd -mkdir /wordcount_input

之後在執行ls命令就可以看到以下文件夾建立了!


建立了之後我們需要將前面的wordcount1.txt和2.txt加入到hdfs系統了(注意前面兩個是在windows系統下面的,我們需要加到hdfs文件夾系統裏面才能被識別。命令很簡單,用-put


這裏需要注意是windows下面的路徑我新建了一個hwork文件夾用來存儲那兩個文件。

這就成功加到了hdfs系統裏面。再次查看:


好,有了文件之後我們就可以調用hadoop的自帶例子來跑了。

3 在正式開始跑之前必須開啓yarn服務


這纔是建立了完整地分佈式系統。


jar文件是自帶的,我複製到了安裝文件夾下面


然後命令行會有一大推指令飄過,最後會將計算結果存儲到wordcount-output文件夾下面


最後執行以下命令就可以查看結果了!


Bonus:

我們也可以通過瀏覽器查看。輸入網址:http://127.0.0.1:50070/,會得到如下界面:


在這裏我們可以更方便的查看文件系統以及各種節點存活信息等


以上就是windows hadoop的配置流程。非常簡潔方便。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章