Hadoop僞分佈式集羣的安裝部署Hadoop僞分佈式集羣的安裝部署
首先可以爲Linux虛擬機搭建起來的最初狀態做一個快照,方便後期搭建分佈式集羣時多臺Linux虛擬機的準備。
一、如何爲虛擬機做快照?
1、什麼是快照?
快照就是對當前的虛擬機狀態進行拍照,保留虛擬機當前狀態的操作信息。
2、爲什麼要爲虛擬機做快照?
第一:爲克隆不同狀態的虛擬機提前做準備。
第二:當對虛擬機的某些操作執行錯誤而且改正比較麻煩的時候,可以切換到之前正常的虛擬機狀態重新進行相關的操作。
3、如何爲虛擬機做快照?
(1)選擇要克隆的虛擬機,然後“右鍵”,選擇“快照”,然後選擇“拍攝快照”。
image.png
(2)可以爲快照取個名稱,也可以爲虛擬機當前的狀態做個描述,然後點擊“拍攝快照”。
image.png
4、如何轉到某一特定狀態的快照?
(1)選擇對應狀態的快照,然後點擊“轉到”。
image.png
(2)然後在接下來的彈框中點擊“是”即可。這樣簡單操作之後,虛擬機就實現了快照狀態的一個轉換。
image.png
二、Linux虛擬機的網絡配置
(一)如何實現虛擬機和外網的連接
1、打開並登陸虛擬機
image.png
2、用ifconfig命令來查看網絡接口配置信息,此時只能查到迴環地址127.0.0.1和子網掩碼255.0.0.0。
image.png
3、做3個小測試
(1)ping 127.0.0.1(迴環地址),如果能ping通,就說明虛擬機的網絡協議是正常的(一般也是能ping通的)。注意:ping通之後同時按“Ctrl” 和“C”即可斷開連接。
image.png
(2)ping 網關
1)這裏面就牽涉到一個問題:我的網關是多少?在哪裏看?
image.png
2)找到網關地址之後,然後開始ping網關。
image.png
一般第一次是ping不通的,那就說明我們的網卡鏈路是有問題的,所以我們需要查看網卡,找出問題的原因。那麼這就又有兩個問題:
第一,在哪裏查看網卡信息?
我們輸入如下命令:vi /etc/sysconfig/network-scripts/ifcfg-eth0 即編輯/etc/sysconfig/network-scripts/目錄下的ifcfg-eth0文件
小技巧:Tab鍵的使用
輸入命令前邊的一部分,然後按一次Tab鍵,如果該命令沒有其他相同開頭的命令,則直接能補全該命令。如果不能補全,可以按兩次Tab鍵,將會列出以輸入字符開頭的所有命令,憑印象輸入對應命令即可。 這個命令要去記憶嗎?要,但是不是每個字母都要記憶,只要記住個大概就行。只要記住哪個文件在哪個目錄下,然後一個一個找就行了。一定要能夠觸類旁通。
第二,該如何配置網卡?
進入文件之後,首先輸入“i”進入文件編輯模式,然後把ONBOOT=no修改爲yes,然後按”Esc”鍵退出編輯模式,再接下來按“:wq”保存退出即可。
image.png
爲什麼要修改呢?ONBOOT=no表示什麼意思呢?
實質上ONBOOT=no表示我們的網卡沒有開啓,所以我們要將no改爲yes,來開啓網卡。
3)重啓網絡服務
OK,剛纔我們修改了網卡的配置,所以這個時候我們需要重啓網絡服務。切記,每次修改網卡之後都需要重啓網絡服務,這樣修改的配置才能生效。
如何重啓網絡服務呢?我們需要輸入命令service network restart即可。重啓成功的標誌如下圖。
image.png
下面我們再來ping一下網關,你會發現,已經能夠成功的ping通網關了。
(3)ping IP地址
1)我們繼續輸入ifconfig命令查看一下網絡接口配置信息,我們發現多了一個eth0的網卡,而且可以看到ip地址。
image.png
2)然後我們ping IP地址,如果能ping通,說明我們的本機網卡鏈路沒有問題。我們發現是可以ping通的,如下圖所示。
image.png
(4)ping外網
我們輸入命令ping www.baidu.com來檢查一下虛擬機和外部網絡的連通性,如果能夠ping通,就說明我們的虛擬機已經和互聯網打通了。
image.png
(二)虛擬機靜態IP的配置
在實際應用中,由於我們使用的是DHCP(Dynamic Host Configuration Protocol:動態主機配置協議)服務器來分配的地址,那麼每次重啓DHCP服務器ip地址有可能是會變動的。 而我們用Linux來搭建集羣學習Hadoop的話,是希望IP固定不變的,因爲有很多地方會涉及到IP地址的配置,如果IP地址變化就會涉及到很多相關地方的修改,所以我們需要配置靜態IP,那麼具體如何進行配置呢?
(1)在哪裏配置?
輸入命令vi /etc/sysconfig/network-scripts/ifcfg-eth0
(2)如何配置?
具體配置如下圖所示:
image.png
其中配置的屬性和值的註釋如下:
BOOTPROTO=static //把dhcp修改爲static
IPADDR=192.168.7x.133 //可以自己設置,但必須與GATEWAY網段一致,比如7x
NETMASK=255.255.255.0 //默認設置
GATEWAY=192.168.7x.2 //網關地址
(3)修改完之後需要重啓網絡服務,即輸入命令service network restart
image.png
(4)重啓成功之後,繼續輸入ifconfig查看一下ip,這個時候ip地址就固定了。
三、創建其他用戶及用戶sudo權限的設置
(一)設置其他用戶組和用戶
1、爲什麼要進行用戶組和用戶的設置?
默認只有一個root超級用戶,它的權限是很大的,如果誤刪文件,整個系統的使用可能就會出現問題,存在很大的安全性問題,所以,我們需要單獨創建用戶,然後在該用戶上進行相關的操作。(可能會出現一個問題,某些操作權限不夠,只需要配置sudo權限或切換到root用戶下執行即可)
2、如何創建用戶組和用戶?
(1)創建用戶組:groupadd
比如創建hadoop用戶組:groupadd hadoop
(2)創建用戶:useradd
比如創建hadoop用戶:useradd hadoop
注意:1)默認創建用戶的時候會同時創建一個同名的用戶組,前邊是用戶,後邊是用戶組。
image.png
2)在任何目錄下執行該命令都可以,最後創建的這個用戶的目錄是在home目錄下,也就是說指不指定-m參數效果都一樣。
image.png
(3)查看幫助信息:
useradd --help
一般情況下,哪個命令不知道怎麼用,不知道使用哪個參數,就用“命令 --help”
(4)切換用戶:su
比如切換到hadoop用戶:su hadoop
注意:root用戶向其他用戶切換的時候不需要輸入密碼,但是其他用戶向root用戶切換或其他用戶之間在切換的時候是需要輸入密碼,所以需要爲用戶設置密碼。
(5)爲用戶設置密碼:passwd
比如爲hadoop用戶設置密碼:passwd hadoop,然後按回車輸入兩次密碼即可,”password --help”查看該命令用法。
(二)爲用戶設置sudo權限
1、爲什麼要爲用戶設置sudo權限?
用戶在執行某些系統命令時會出現用戶權限不夠的問題,需要切換到root用戶下執行,頻繁的切換會很麻煩,而且也很容易導致權限問題。所以最好爲用戶配置sudo權限。所有的操作都可以在該用戶下操作,出現權限不夠的問題只需要在命令前邊加上sudo即可。
2、如何爲用戶設置sudo權限?
首先要明確是爲哪個用戶設置sudo權限。比如爲hadoop用戶設置sudo權限。
(1) 在root用戶下,輸入visudo即可。
(2) 在打開的文件末尾添加“hadoop ALL=(ALL) NOPASSWD:ALL”即可。
image.png
(3) 驗證sudo權限是否配置成功
image.png
這樣特定用戶的sudo權限就配置成功了,接下來就可以正常使用sudo命令了。
四、X-shell遠程連接Linux虛擬機
由於直接在Linux虛擬機上操作比較不方便,所以我們選擇使用第三方遠程連接工具X-shell遠程連接到Linux虛擬機,然後通過X-shell對Linux虛擬機進行相關操作。
1、如何實現X-Shell和Linux虛擬機的遠程連接?
(1)安裝X-Shell遠程連接工具
請點擊此鏈接下載X-Shell。
(2)實現X-Shell和Linux虛擬機的遠程連接
1)首先打開X-Shell工具,然後在X-Shell和Linux虛擬機之間新建一個會話並做如下配置。
image.png
2) 配置完成之後點擊“用戶身份驗證”,進行用戶名和密碼的配置。然後點擊“確定”。配置成功之後再用X-Shell連接遠程虛擬機,就不用輸入用戶名和密碼了。
image.png
3) 選擇對應的對話連接即可。
4)接下來就可以在X-Shell上進行相關的操作,實際上還是在Linux虛擬機上執行的操作。
五、虛擬機主機名的配置
1、如何查看主機名?
(1)直接通過命令提示符即可看出主機名。
image.png
(2)通過hostname命令也可顯示主機名。
2、如何修改主機名?
(1)臨時性修改
執行命令hostname 主機名(要修改的主機名)
比如 sudo hostname abc
注意:臨時性修改的方法當虛擬機重啓的時候就不生效了,而且不會改變命令提示符中的主機名,所以爲臨時性修改。
(2)永久性修改
我們輸入命令vi /etc/sysconfig/network,然後在該文件中修改即可。
image.png
注意:修改完之後不會立即顯示出修改後的結果,我們需要輸入reboot命令重啓linux操作系統,重啓之後,我們才能看到修改後的結果。
六、關閉防火牆
1、防火牆是幹什麼的?爲什麼要關閉防火牆?
防火牆是對我們的服務器進行的一種保護,但是有時候也會妨礙集羣間的相互通訊,所以爲了不影響集羣間的通信我們可以關閉掉防火牆。
2、怎麼關閉防火牆?
(1)首先查看防火牆狀態
當出現如下信息時就表明防火牆是開啓的狀態。
service iptables status
image.png
(2)關閉防火牆的兩種方法:
1)臨時性關閉
service iptables stop
image.png
注意:臨時性關閉防火牆的效果和臨時性修改主機名的效果一樣,當重啓linux虛擬機之後就不起作用了。
2)永久性關閉
chkconfig iptables off
image.png
注意:永久性關閉防火牆之後,需要重新啓動linux操作系統,即輸入reboot命令才能生效。
七、相關服務的安裝
1、lrzsz傳輸包
(1)爲什麼要安裝lrzsz安裝包?
lrzsz傳輸包主要用於文件的上傳和下載,rz表示上傳,sz表示下載,由於在集羣搭建過程中需要對一些文件進行上傳或下載,所以需要首先安裝lrzsz傳輸包。
(2)怎麼安裝lrzsz安裝包?
在root用戶下,輸入yum install lrzsz即可。這裏我們採用的是yum的安裝方式,因爲這種方式可以把依賴的軟件一起安裝好。
2、安裝openssh-clients服務
(1)爲什麼要安裝openssh-clients服務?
做免密碼登錄的時候需要用到這個服務
(2)怎麼安裝openssh-clients服務?
輸入命令 yum install -y openssh-clients
(-y表示在下載安裝過程中全部輸入yes或y)
(3)安裝完成之後,可以輸入命令ssh,按回車,如果能查看到ssh的用法即表示安裝成功。
八、配置主機名和IP之間的對應關係
1、在哪配置?
vi /etc/hosts
2、如何配置?
參照該文件中的提示信息來配置
image.png
解釋如下:
127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4是什麼意思
第一部分:網絡IP地址。
第二部分:對應的主機名
第三部份:主機名.域名,注意主機名和域名之間有個半角的點。
第四部份:主機名別名,其實還是主機名。
第五部份:主機名別名.域名,注意主機名和域名之間有個半角的點。
IP地址後是主機名或主機名列表,主機名列表中第一個爲主機名,其他爲主機名別名,主機名別名可以有多個。
主機域名用 ”主機名.域名“來表示。
::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
::1想當於IPv6的locahost對應的IP地址,類似於IPv4的127.0.0.1
參照上邊的格式在文件末行添加ip和hostname
比如:192.168.7x.133 abc即可。
如果還需要配置其他主機名和IP之間的對應關係,只需要按照上面的格式逐行配置即可。
九、配置SSH免密碼登錄
1、SSH是什麼?爲什麼要配置ssh免密碼登錄?
SSH是一個可以在應用程序中提供安全通信的一個協議,通過SSH可以安全地進行網絡數據傳輸,它的主要原理就是利用非對稱加密體系,對所有待傳輸的數據進行加密,保證數據在傳輸時不被惡意破壞、泄露或者篡改。但是hadoop使用ssh主要不是用來進行數據傳輸的,hadoop主要是在啓動和停止的時候需要主節點通過SSH協議將從節點上面的進程啓動或停止。也就是說如果不配置SSH免密碼登錄對hadoop的正常使用也沒有任何影響,只是在啓動和停止hadoop的時候需要輸入每個從節點的用戶名的密碼就可以了,但是我們可以想象一下,當集羣規模比較大的時候,比如上百臺,如果每次都要輸入每個從節點的密碼,那肯定是比較麻煩點,所以這種方法肯定是不可取的,所以我們要進行SSH免密碼的配置,而且目前遠程管理環境中最常使用的也是SSH(Secure Shell)。
2、如何配置ssh免密碼登錄?
首先要明確是爲哪個用戶創建免密碼登錄,比如我們爲hadoop用戶創建SSH免密碼登錄。
1)在hadoop用戶下,切換到hadoop用戶的家目錄(即/home/hadoop目錄)。
2)創建.ssh目錄:輸入mkdir .ssh命令(其實不用提前創建該目錄也行,直接在hadoop用戶下執行生成祕鑰的命令之後,系統會自動在hadoop的家目錄下(/home/hadoop)創建.ssh目錄)
3)生成祕鑰:輸入命令ssh-keygen -t rsa,然後一直按回車。
ssh-keygen是ssh祕鑰生成器,-t是指定參數,rsa是一種加密算法。
image.png
4)切換到.ssh目錄下:輸入cd /home/hadoop/.ssh,然後輸入“ll”命令查看,發現有一個公鑰,有一個私鑰,(ssh生成的祕鑰對都是存儲在.ssh這個目錄下的)
image.png
5)將公鑰copy到認證文件裏。
輸入命令:cp id_rsa.pub authorized_keys
注意:上述命令中文件名authorized_keys一定要正確無誤。
然後ll查看就多了一個文件authorized_keys
image.png
6)退回到hadoop的家目錄,爲.ssh賦予權限
chmod 700 .ssh
表示爲.ssh目錄賦予700的權限
chmod 600 .ssh/*
表示爲.ssh目錄下的所有文件賦予600的權限
注意:700、600指什麼意思?比如文件權限"-rw-------"其中第一個“-”表示該文件爲普通文件,接下來9個字符3個爲一組,第一組表示該用戶的讀、寫、執行權限,第二組表示用戶組,第三組表示其他用戶。其中文件的讀、寫和執行權限,對應字母分別爲W/r/x 對應數字分別爲4/2/1,那麼700就表示用戶有讀、寫、執行權限(7=4+2+1),而用戶組和其他用戶什麼權限都沒有。(其實賦予權限這兩步也可以不做)
擴展知識:
chmod和chown的區別和聯繫?
chown用於對文件或目錄賦予用戶和用戶組權限
chmod用於對文件或目錄賦予讀寫執行權限
7)驗證SSH免密碼是否配置成功
用ssh登錄dajiangtai,第一次登錄需要輸入yes,第二次以後就不用輸入密碼了,如果能達到這個效果就表示SSH免密碼登錄設置成功,登陸的時候用ssh dajinagtai這個命令。
注意:每次免密碼登錄到其他主機做完對應操作之後一定要退出出來。否則很容易出現錯誤。
十、安裝配置JDK
1、爲什麼要安裝jdk?
因爲hadoop軟件是由Java編寫的,Java代碼的運行要有Java運行環境及相關的依賴包,所以首先要安裝配置JDK。
2、怎麼安裝JDK?
(1)首先創建安裝目錄
就是把自己所有需要安裝的文件都放在這個安裝目錄下,以便於管理和維護。(一般在搭建集羣之前都要進行目錄規劃,比如你安裝的軟件放在哪個目錄下,數據、元數據、臨時數據放在哪個目錄下等等,這些目錄都要提前規劃好,並賦予好對應的權限,而且這些路徑要和配置文件裏的一致)
(2)如何創建安裝目錄呢?
Linux創建目錄的命令:mkdir (make directory 的縮寫)
比如我們可以輸入mkdir -p /home/hadoop/app(-p指就是如果沒有父目錄,我們也可以一同創建),當然我們也可以切換到cd /home/hadoop目錄下,然後輸入mkdir app命令創建這個目錄。
爲了便於管理,實現安裝包和解壓包的隔離,我再創建兩個目錄,soft目錄用於存儲安裝包,modules目錄用於存儲解壓後的軟件包。
(3)上傳已經在本地下載好的jdk安裝包到已創建安裝目錄下
也可使用官網下載地址:http://www.oracle.com/technetwork/java/javase/archive-139210.html
可以使用rz命令,也可以使用filezilla或其他文件傳輸工具
(4)輸入命令tar zxvf 安裝包,進行解壓(這裏安裝的tar包是放到一個soft目錄下,解壓之後的軟件放到一個modules目錄下)
tar zxvf jdk-7u79-linux-x64.tar.gz -C ./../modules/
(其中,z代表gzip的壓縮包;x代表解壓;v代表顯示過程信息;f代表後面接的是文件)
注意:指定文件的路徑時要和自己文件的存放路徑一致,一定要靈活運用。
3、設置環境變量並生效
1)vi /etc/profile,然後配置如下內容。
image.png
2)輸入:source /etc/profile使配置文件生效。
(source命令的作用是,將目前設定的配置刷新。或者我們常說的讓配置文件生效)
4、驗證jdk的安裝是否成功
輸入java -version,出現版本信息就表示jdk安裝成功。
十一、安裝配置Hadoop
1、下載並上傳Hadoop安裝包
切換到之前規劃好的軟件安裝目錄,用rz命令或FileZilla工具上傳提前下載到本地的Hadoop安裝包到指定的軟件安裝目錄下。或使用命令“wget+軟件安裝包鏈接”的形式在線下載Hadoop安裝包,由於軟件包比較大,下載時間比較長,所以不建議採用這種方式。
如果沒有下載,請下載hadoop2.6.0的安裝包。
Hadoop 安裝包也可以直接在官網下載,沒有32位和64位的區分。
下載地址:https://archive.apache.org/dist/hadoop/common/
2、如果是在root用戶下上傳的hadoop安裝包,那麼該安裝包的權限就是root用戶,那麼如果在hadoop用戶下解壓,就會出現權限問題導致不能正確解壓。所以在解壓之前要先賦予文件正確的權限。
image.png
3、解壓Hadoop安裝包
輸入如下命令進行解壓:
image.png
4、配置hadoop環境變量
(1)輸入命令vi /etc/profile
(2)配置環境變量
1)配置格式如下:
添加HADOOP_HOME=hadoop的安裝目錄
PATH=$HADOOP_HOME/bin:$PATH
export HADOOP_HOME PATH
2)具體配置如下:
image.png
然後:wq保存退出
(3)使配置文件生效source /etc/profile
(4)輸入命令“hadoop version”檢查hadoop是否安裝成功。
5、修改hadoop配置文件
(1)爲什麼要修改配置文件
如果不修改hadoop配置文件,系統將使用hadoop默認的屬性值,有些默認屬性值不滿足僞分佈式集羣的搭建(比如副本個數默認爲3,而現在只有一個datanode節點無法存儲3個副本),所以就要根據集羣搭建的特殊需求修改相應的屬性來覆蓋默認的屬性值。
(2)配置文件的位置
Hadoop安裝目錄下的/etc/hadoop
比如:
image.png
(3)修改哪些配置文件以及如何修改?
主要修改6個配置文件:
(1)hadoop-env.sh
主要修改JDK的安裝目錄,具體配置如下:
image.png
(2)core-site.xml
(3)hdfs-site.xml
(4)mapred-site.xml
(5)yarn-site.xml
(6)slaves
主要配置從節點(比如DataNode)的主機名,即你想讓哪個節點作爲DataNode節點,那麼你就可以把該節點的主機名配置到slaves文件中,如果有多個節點要配置,就按照上面的要求逐行添加,具體配置如下:
image.png
注意:配置文件需要根據自己的情況做相應的修改,具體如何修改,每個屬性及值代表的含義可參考對應視頻解釋。
6、創建配置文件中指定的3個目錄。如果不提前創建,將會導致格式化失敗。
image.png
修改目錄的用戶權限爲hadoop,否則會因爲權限問題導致數據寫入不成功。
image.png
注意:這幾個目錄一定要提前創建,並賦予好權限,而且要和配置文件中指定的目錄一致。
十二、格式化NameNode
1、爲什麼要格式化NameNode?
格式化是對HDFS這個分佈式文件系統中的DataNode進行分塊,統計所有分塊後的初始元數據,然後存儲在NameNode中。
2、執行如下命令對NameNode進行格式化。
在hadoop用戶下,使用hadoop目錄下的bin目錄下的hadoop命令, 即先切換到hadoop用戶下的hadoop安裝目錄下。然後輸入命令bin/hadoop namenode -format即可。
切換到hadoop安裝目錄下的bin目錄,然後輸入命令./hadoop namenode -format也可以,如下圖所示:
image.png
當出現如下標誌,就表示NameNode已經成功的格式化了。
image.png
格式化成功之後,查看hdfs-site.xml配置文件中dfs.namenode.name.dir指定的/data/dfs/name目錄下是否有current目錄,如果有,也說明格式化成功)
在current目錄下有如下幾個文件,他們代表的含義分別如下:
image.png
fsimage:是NameNode元數據在內存中滿了之後,持久化保存到的文件。
fsimage*.md5是校驗文件,用於校驗fsimage的完整性。
seen_txid記錄一個id號。
VERSION文件裏保存的是namespaceID:NameNode的唯一ID
clusterID:集羣ID,NameNode和DataNode的集羣ID應該一致,表明是一個集羣。
image.png
edits:是編輯日誌文件,當用戶對文件系統進行操作的時候,就會生成對應的編輯日誌文件。目前還沒有做任何操作,所以還沒有編輯日誌文件。
十三、啓動Hadoop集羣
(1)在hadoop安裝目錄下的sbin目錄下執行start-all.sh腳本。
image.png
(2)輸入jps(java process server) ,如果出現以下進程(5個,不包括jps)表示集羣啓動成功。
其中jps的作用是顯示當前系統的java進程情況,及其id號。jps僅查找當前用戶的Java進程,而不是當前系統中的所有進程。
image.png
十四、驗證Hadoop集羣是否搭建成功
1、通過Web UI 查看HDFS和YARN
Hadoop僞分佈集羣啓動之後,我們可以通過WebUI查看HDFS和YARN。
(1)通過默認的50070端口訪問HDFS文件系統,這個端口可以在默認配置文件hdfs-default.xml中找到。
瀏覽器訪問:http://ip:50070
image.png
(2)通過默認的8088端口訪問YARN,這個端口可以在默認配置文件yarn-default.xml中找到。
瀏覽器訪問:http://ip:8088
spacer.gif
(3)通過主機名訪問HDFS和YARN
1)在本機的Windows系統中,以上Web UI我們都是通過ip在瀏覽器中直接訪問的,如果想通過hostname來訪問,我們需要配置Windows下的HOSTS文件。Windows下的HOSTS文件絕對路徑爲C:\Windows\System32\drivers\etc
image.png
2)在HOSTS文件中添加hostname與ip之間的對應關係,中間用空格分開。
3)然後就可以通過hostname訪問HDFS和YARN。
瀏覽器訪問 http://域名:50070
瀏覽器訪問 http://域名:8088/cluster
2、測試運行Hadoop僞分佈集羣
(1)Hadoop 僞分佈集羣搭建好之後,我們通過命令查看hdfs根目錄下沒有任何文件。
image.png
(2) 準備數據
1) 首先在/home/hadoop/app目錄下創建一個data目錄。
2) 然後在data目錄下創建一個文件djt.txt,可以輸入如下數據。
3) 然後把該文件上傳至hdfs的/目錄下。
image.png
4) 檢查是否上傳成功4) 檢查是否上傳成功
命令: hadoop fs -ls/
(3)運行Hadoop例子中自帶的wordcount程序。
1)切換到mapreduce代碼的jar包所在的位置
spacer.gif
2)執行如下命令運行WordCount
image.png
其中hadoop jar是運行mapreduce的jar包的命令。
./hadoop-mapreduce-examples-2.6.0.jar指jar包的位置,這裏用的是相對路徑。
wordcount表示要運行的主類的名稱,因爲jar包中可以包含多個mapreduce代碼,要運行哪個必須明確指定。
/djt.txt指HDFS文件系統中/目錄下的djt.txt文件,用來表示輸入路徑,注意:輸入路徑必須存在。
/djt指/目錄下djt目錄,用來表示輸出目錄,注意:輸出目錄不能提前存在,如果提前存在,代碼就不會運行並提示相應的錯誤。
4) 運行成功之後,可以通過web界面查看作業運行結果。結果就在part-r-00000文件中。可以下載該文件查看最終運行結果。
瀏覽器訪問 http://域名:50070
也可以通過shell命令的方式查看最終運行結果,操作如下:
spacer.gif
5)也可以通過: 域名:8088 界面中看到作業的運行進度和狀態。
如果以上wordcount程序能正常運行,說明Hadoop僞分佈集羣就安裝成功了。