大數據學習記錄(day7)- 搭建hadoop開發環境(1)

(距離上一次更新,時間隔了好久,繼續學習吧微笑
學習來源:http://www.aboutyun.com/thread-6187-1-1.html
http://blog.csdn.net/yangwenxue_admin/article/details/51332324
http://lib.csdn.net/article/hadoop/6616
http://lib.csdn.net/article/hadoop/55853
https://my.oschina.net/u/570654/blog/112757
http://blog.csdn.net/hliq5399/article/details/78193113
《從基礎架構到最佳實踐》(祁偉等,清華大學出版社,2013年8月第一版)
今天,試着按照網上的步驟,在Windows環境下搭建hadoop開發環境。
主機:lenovo Thinkpad E431, 4G內存
操作系統:Windows10家庭版 64位
Windows下運行Hadoop,通常有兩種方式:一種是用VM方式安裝一個Linux操作系統,這樣基本可以實現全Linux環境的Hadoop運行;另一種是通過Cygwin模擬Linux環境。後者的好處是使用比較方便,安裝過程也簡單。今天先試試第一種方式。
(一)準備工作及虛擬機運行環境安裝。
1、準備工作
(1)安裝VM,我選擇的是VM WorkStation 10。
(2)下載Liunx安裝鏡像,我選擇的是Red Hat Linux 6.0 32位,並通過VM新建虛擬機安裝,硬盤20G,按照嚮導設置默認用戶名和登錄密碼(用戶名不能是root,該密碼同時也是root帳戶的密碼)。
(3)修改VM WorkStation網卡DNS設置。
2、準備主機環境配置
(1)修改IP地址。
linux虛擬機安裝完成後,默認是自動匹配IP地址的,爲了下一步更好的完成HDFS部署,需要指定IP地址。
爲了與主機共享網絡,需要先查看VM在主機上虛擬網卡的Wins服務器地址,如下圖所示:
在Red Hat Linux的圖形界面下,打開/etc/sysconfig/network-scripts/目錄下的ifcfg-eth0文件直接編輯,或通過界面菜單選擇“system->preferences->network connections”打開network manager,選擇IPv4標籤頁,選擇Manual(自定義),add config增加IP和DNS Server配置。完成後,ifcfg-eth0文件內容如下:

注:--1--直接修改文件內容,必須以root身份登錄(下同)。
  --2--虛擬機IP網關配置爲主機虛擬網卡的Wins服務器,網段與網關在一個網段上即可,這樣就可以共享主機的網絡了。
(2)修改主機名稱
打開/etc/sysconfig/network文件,修改主機名稱爲master.hadoop。注:--1--直接修改文件內容,必須以root身份登錄(下同)。
  --2--虛擬機IP網關配置爲主機虛擬網卡的Wins服務器,網段與網關在一個網段上即可,這樣就可以共享主機的網絡了。
(2)修改主機名稱
打開/etc/sysconfig/network文件,修改主機名稱爲master.hadoop。注:--1--直接修改文件內容,必須以root身份登錄(下同)。
  --2--虛擬機IP網關配置爲主機虛擬網卡的Wins服務器,網段與網關在一個網段上即可,這樣就可以共享主機的網絡了。
(2)修改主機名稱
打開/etc/sysconfig/network文件,修改主機名稱爲master.hadoop。
注:--1--直接修改文件內容,必須以root身份登錄(下同)。
  --2--虛擬機IP網關配置爲主機虛擬網卡的Wins服務器,網段與網關在一個網段上即可,這樣就可以共享主機的網絡了。
(2)修改主機名稱
打開/etc/sysconfig/network文件,修改主機名稱爲master.hadoop。
(3)修改Hosts:
打開/etc/hosts文件,修改結果如下圖所示:
注:修改IP地址時如果使用了network manager工具,則該步驟可以跳過。
(4)環境測試。
通過ping測試master.hadoop是否暢通。效果如下圖所示:
(5)關閉防火牆。
學習環境可以直接把防火牆關閉掉。
--1--用root用戶登錄後,執行查看防火牆狀態。
[root@master ~]# service iptables status
--2--臨時關閉防火牆
[root@master ~]# service iptables stop
--3--如果要永久關閉防火牆用。
[root@master ~]# chkconfig iptables off
這種需要重啓才能生效。
(6)關閉selinux。
selinux是Linux的一個子安全機制,學習環境可以將它禁用。
[root@master ~] vim /etc/sysconfig/selinux
3、Java安裝與部署
(1)查看是否已經安裝了java JDK。
[root@master ~]# java –version
注意:Hadoop機器上的JDK,最好是Oracle的Java JDK,不然會有一些問題,比如可能沒有JPS命令。
如果安裝了其他版本的JDK,卸載掉。
(2)下載Java JDK:jdk-7u80-linux-i586.tar.gz
(3)將jdk-7u80-linux-i586.tar.gz解壓到/opt/modules目錄下
[root@master ~]# tar -zxvf Downloads/jdk-7u80-linux-i586.tar.gz -C /opt/modules
注:linux文件路徑是區分大小寫的,root的當前目錄位於/root,如果/opt下沒有modules目錄,可通過mkdir命令創建。
(4)添加環境變量
設置JDK的環境變量 JAVA_HOME。需要修改配置文件/etc/profile,追加
export JAVA_HOME="/opt/modules/jdk1.7.0_80"
export PATH=$JAVA_HOME/bin:$PATH
修改完畢後,執行 source /etc/profile
(5)安裝後再次執行 java –version,可以看見已經安裝完成。
(二)Hadoop本地模式安裝。
4、下載hadoop安裝包。
下載地址:http://archive.apache.org/dist/hadoop/core/hadoop-2.5.0/hadoop-2.5.0.tar.gz
5、 創建一個存放本地模式hadoop的目錄
[root@master ~]$ mkdir /opt/modules/hadoopstandalone
6、 解壓hadoop文件
[root@master ~]$ tar -zxf Downloads/hadoop-2.5.0.tar.gz -C /opt/modules/hadoopstandalone/
7、運行MapReduce程序,驗證
這裏用hadoop自帶的wordcount例子來在本地模式下測試跑mapreduce,該程序用於對輸入文件中英文單詞進行計數。
(1)準備mapreduce輸入文件/opt/data/wc.input
(2)運行hadoop自帶的mapreduce Demo
[root@master hadoop-2.5.0]# bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /opt/data/wc.input output2
這裏可以看到job ID中有local字樣,說明是運行在本地模式下的。
(3) 查看輸出文件
本地模式下,mapreduce的輸出是輸出到本地。
[hadoop@bigdata-senior01 hadoopstandalone]$ ll output2
輸出目錄中有_SUCCESS文件說明JOB運行成功,part-r-00000是輸出結果文件。
發佈了80 篇原創文章 · 獲贊 3 · 訪問量 12萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章