大數據學習記錄（day7）- 搭建hadoop開發環境（1）

原創

alvin_2005

2020-02-20 18:01

（距離上一次更新，時間隔了好久，繼續學習吧

）

學習來源：http://www.aboutyun.com/thread-6187-1-1.html
http://blog.csdn.net/yangwenxue_admin/article/details/51332324
http://lib.csdn.net/article/hadoop/6616
http://lib.csdn.net/article/hadoop/55853
https://my.oschina.net/u/570654/blog/112757
http://blog.csdn.net/hliq5399/article/details/78193113
《從基礎架構到最佳實踐》（祁偉等，清華大學出版社，2013年8月第一版）
今天，試着按照網上的步驟，在Windows環境下搭建hadoop開發環境。
主機：lenovo Thinkpad E431, 4G內存
操作系統：Windows10家庭版 64位
Windows下運行Hadoop，通常有兩種方式：一種是用VM方式安裝一個Linux操作系統，這樣基本可以實現全Linux環境的Hadoop運行；另一種是通過Cygwin模擬Linux環境。後者的好處是使用比較方便，安裝過程也簡單。今天先試試第一種方式。
（一）準備工作及虛擬機運行環境安裝。
1、準備工作
（1）安裝VM，我選擇的是VM WorkStation 10。
（2）下載Liunx安裝鏡像，我選擇的是Red Hat Linux 6.0 32位，並通過VM新建虛擬機安裝，硬盤20G，按照嚮導設置默認用戶名和登錄密碼（用戶名不能是root，該密碼同時也是root帳戶的密碼）。
（3）修改VM WorkStation網卡DNS設置。

2、準備主機環境配置
（1）修改IP地址。
linux虛擬機安裝完成後，默認是自動匹配IP地址的，爲了下一步更好的完成HDFS部署，需要指定IP地址。
爲了與主機共享網絡，需要先查看VM在主機上虛擬網卡的Wins服務器地址，如下圖所示：

在Red Hat Linux的圖形界面下，打開/etc/sysconfig/network-scripts/目錄下的ifcfg-eth0文件直接編輯，或通過界面菜單選擇“system->preferences->network connections”打開network manager，選擇IPv4標籤頁，選擇Manual（自定義），add config增加IP和DNS Server配置。完成後，ifcfg-eth0文件內容如下：

注：--1--直接修改文件內容，必須以root身份登錄（下同）。
  --2--虛擬機IP網關配置爲主機虛擬網卡的Wins服務器，網段與網關在一個網段上即可，這樣就可以共享主機的網絡了。
（2）修改主機名稱
打開/etc/sysconfig/network文件，修改主機名稱爲master.hadoop。注：--1--直接修改文件內容，必須以root身份登錄（下同）。
  --2--虛擬機IP網關配置爲主機虛擬網卡的Wins服務器，網段與網關在一個網段上即可，這樣就可以共享主機的網絡了。
（2）修改主機名稱
打開/etc/sysconfig/network文件，修改主機名稱爲master.hadoop。注：--1--直接修改文件內容，必須以root身份登錄（下同）。
  --2--虛擬機IP網關配置爲主機虛擬網卡的Wins服務器，網段與網關在一個網段上即可，這樣就可以共享主機的網絡了。
（2）修改主機名稱
打開/etc/sysconfig/network文件，修改主機名稱爲master.hadoop。

注：--1--直接修改文件內容，必須以root身份登錄（下同）。
--2--虛擬機IP網關配置爲主機虛擬網卡的Wins服務器，網段與網關在一個網段上即可，這樣就可以共享主機的網絡了。
（2）修改主機名稱
打開/etc/sysconfig/network文件，修改主機名稱爲master.hadoop。

（3）修改Hosts：
打開/etc/hosts文件，修改結果如下圖所示：

注：修改IP地址時如果使用了network manager工具，則該步驟可以跳過。
（4）環境測試。
通過ping測試master.hadoop是否暢通。效果如下圖所示：

（5）關閉防火牆。
學習環境可以直接把防火牆關閉掉。
--1--用root用戶登錄後，執行查看防火牆狀態。
[root@master ~]# service iptables status
--2--臨時關閉防火牆
[root@master ~]# service iptables stop
--3--如果要永久關閉防火牆用。
[root@master ~]# chkconfig iptables off
這種需要重啓才能生效。
（6）關閉selinux。
selinux是Linux的一個子安全機制，學習環境可以將它禁用。
[root@master ~] vim /etc/sysconfig/selinux

3、Java安裝與部署
（1）查看是否已經安裝了java JDK。
[root@master ~]# java –version
注意：Hadoop機器上的JDK，最好是Oracle的Java JDK，不然會有一些問題，比如可能沒有JPS命令。
如果安裝了其他版本的JDK，卸載掉。
（2）下載Java JDK：jdk-7u80-linux-i586.tar.gz
（3）將jdk-7u80-linux-i586.tar.gz解壓到/opt/modules目錄下
[root@master ~]# tar -zxvf Downloads/jdk-7u80-linux-i586.tar.gz -C /opt/modules
注：linux文件路徑是區分大小寫的，root的當前目錄位於/root，如果/opt下沒有modules目錄，可通過mkdir命令創建。
（4）添加環境變量
設置JDK的環境變量 JAVA_HOME。需要修改配置文件/etc/profile，追加
export JAVA_HOME="/opt/modules/jdk1.7.0_80"
export PATH=$JAVA_HOME/bin:$PATH

修改完畢後，執行 source /etc/profile
（5）安裝後再次執行 java –version,可以看見已經安裝完成。

（二）Hadoop本地模式安裝。
4、下載hadoop安裝包。
下載地址：http://archive.apache.org/dist/hadoop/core/hadoop-2.5.0/hadoop-2.5.0.tar.gz
5、創建一個存放本地模式hadoop的目錄
[root@master ~]$ mkdir /opt/modules/hadoopstandalone
6、解壓hadoop文件
[root@master ~]$ tar -zxf Downloads/hadoop-2.5.0.tar.gz -C /opt/modules/hadoopstandalone/
7、運行MapReduce程序，驗證
這裏用hadoop自帶的wordcount例子來在本地模式下測試跑mapreduce，該程序用於對輸入文件中英文單詞進行計數。
（1）準備mapreduce輸入文件/opt/data/wc.input

（2）運行hadoop自帶的mapreduce Demo
[root@master hadoop-2.5.0]# bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /opt/data/wc.input output2
這裏可以看到job ID中有local字樣，說明是運行在本地模式下的。