Hadoop在Windows環境下的部署

經過一整天的折騰，參考了網上很多資料，我機器上的Hadoop似乎是配置成功了。下面分享一下詳細的配置過程。也祝願大家在配置的過程中少走彎路。

注意：本文的配置環境是：

CygWin最新版本2.769下載地址
Window7-64bit
JDK1.6.0_31-win64 (JRE6)下載地址
Eclipse-Indigo..
Hadoop 0.20.2 (注意：0.20.203版本不可用，會導致tasktracker無法啓動)下載地址

-----------------------------------------華麗分割------------------------------------

環境安裝&配置：

1.JDK，我的安裝目錄：C/Java，安裝後視圖

安裝好了JDK，然後配置JAVA_HOME環境變量:

然後，把JDK下面的BIN目錄追加到環境變量PATH後面。

2.CygWin，安裝過程中記得選擇所需的包，這裏需要的是:

Net Category下的：openssh,openssl

BaseCategory下的：sed （若需要Eclipse，必須sed）

Devel Category下的：subversion（建議安裝）。具體請參考下面的圖示：

安裝完成後，把CygWin的bin目錄以及usr/sbin 追加到系統環境變量PATH中。

3.Hadoop

把下載的hadoop-0.20.2.tar.gz解壓到指定目錄。我把解壓後的Hadoop程序放到了Cygwin根目錄下的hadoop文件夾中。具體如下圖示：

（不要使用0.20.203版本的Hadoop！！！）

下面開始配置Hadoop。需要配置的文件：（hadoop/conf目錄下）

hadoop-env.sh
core-site.xml
hdfs-site.xml
mapred-site.xml

第一個文件 hadoop-env.sh

把裏面的JAVA_HOME改掉，注意export前面的#號要去掉。

而且必須要使用linux的路徑表達方式。我的jdk路徑是 C:\JAVA\jdk1.6.0_31，在CygWin中對應的路徑爲： /cygdrive/c/java/jdk1.6.0_31

第二個文件：core-site.xml

首先刪除它，然後把hadoop/src/core目錄下的core-default.xml文件複製到conf目錄下，並命名爲core-site.xml。然後修改其中的fs.default.name變量，如下所示。

（確保端口號（我的是9100）未被佔用）

第三個文件：hdfs-site.xml

首先把它刪除，然後複製src/hdfs目錄下的hdfs-default.xml到conf目錄下，並改名爲hdfs-site.xml

然後修改dfs.replication變量，如下圖示：

該變量意思是文件系統中文件的複本數量。在單獨的一個數據節點上運行時，HDFS無法將塊複製到三個數據節點上。

第四個文件：mapred-site.xml

首先刪除它，然後複製src/mapred目錄下的mapred-default.xml到conf目錄下，並改名爲mapred-site.xml，然後修改其mapred.job.tracker變量：

（同樣確保端口號未被佔用）

----------------------------------華麗分割-------------------------------------

配置SSH服務（首先確認安裝了OpenSSH,OpenSSL兩個包）

1.打開CygWin輸入SSH-HOST-CONFIG

2.系統提示：should privilege separation be used ? 回答：no

3.系統提示：if sshd should be installed as service?回答：yes

4.系統提示：the value of CYGWIN environment variable 輸入: ntsec

5.成功

下面是圖示（我自己當時沒記錄，所以參考的是網絡上的圖片）

下一步，進入Window系統的服務菜單，打開Cygwin的SSHD服務：如下圖所示：

下面繼續回到CygWin環境：執行如下命令：

1.ssh-keygen然後一直回車

2.cd ~/.ssh

3. cp id_rsa_pub anthorized_keys

4.exit 退出cygwin，若不退出，可能出錯

再次登錄時查看一下：

5運行 ssh localhost 若有提示，則回車。

6執行 ps 若看到有/usr/bin/ssh 進程，說明成功

------------------------------------華麗分割----------------------------------

啓動Hadoop

第0步：爲了避免jobtracker，info could only be replicated to 0 node,instead of 1錯誤，最好把 hadoop/conf目錄下面的 masters和slaves文件全部改爲127.0.0.1（原內容爲：localhost）

第一步，在hadoop目錄下創建目錄logs，用於保存日誌

第二步，格式化管理者，即namenode，創建HDFS

執行命令： bin/hadoop namenode -format，下面示代表成功

此時，執行ps，應該能看到ssh進程，且看不到java虛擬機進程。

第三步，啓動Hadoop，執行命令： bin/start-all.sh

然後執行jps命令，你可能會看到如下圖：

會發現Datanode ，Secondarynamenode以及TaskTracker都沒有啓動。網上有人說是JPS的問題，具體不是很清楚，但本文後面的文件系統可以使用。Datanode可以保存數據，繼續看吧。

不過此時執行PS命令，能看到5個JVM進程。

不知道這算不算成功，但我的Logs日誌文件夾裏面沒有報錯。

------------------------------華麗分割---------------------------------------

文件系統操作

爲了驗證HDFS能夠正常工作我們可以進行文件的上傳操作。

執行命令：

bin/hadoop fs -mkdir In

bin/hadoop fs -put *.txt In

以上命令會在HDFS中建立In文件夾，然後把本地Hadoop目錄下的所有文本文件上傳到HDFS中，Hadoop目錄下共用四個txt文件：

OK，上傳的太少，不爽，再上傳一部電影。比如，我要把一個視頻文件movie.mpg上傳到HDFS中，首先，在Hadoop根目錄下建立文件夾local，然後把movie.mpg拷貝到其中

下面執行命令：

然後，查看文件系統是否有上述文件：

可以看到Movie.mpg在HDFS中。

同樣在Eclipse中也能看到哇：

OK，突然不能貼圖了，我再接着寫一篇吧。介紹一下常見的錯誤處理。

轉自：http://blog.csdn.net/ruby97/article/details/7423088

站內首發文章

zhangqinghao9203

發佈了16 篇原創文章 · 獲贊 11 · 訪問量 15萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Hadoop在Windows環境下的部署

Hadoop在Windows環境下的部署

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

解答數據挖掘初學者心中的疑惑

Java加密技術（一）——BASE64與單向加密算法MD5&SHA&MAC

Hadoop在Windows環境下的部署

60個開發者不容錯過的免費資源庫

Hadoop學習路線圖

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結