- eclipse開發環境配置
下載,解壓eclipse,驗證是否能夠正常運行。
將hadoop-eclipse-plugin-2.6.0.jar拷貝到eclipse的dropins文件夾下。如果已經啓動了eclipse,需要關閉重啓eclipse。
備註:應當使用hadoop2.7.7的插件,但是我沒有下載到,只是上課時演示過程。
1.1配置hadoop路徑
在主菜單上選擇“window”,如下圖,然後選擇“Preferences”。
在如下界面左邊選擇“HadoopMap/Reduce”,在右邊輸入Hadoop的路徑(hadoop_home路徑)。輸入後點擊“Apply and Close”。
1.2 配置Map/Reduce Locations
如下圖,從主菜單開始,然後選擇“Other”。
在以下界面中選擇“Map/Reduce Locations”,然後點擊”Open”。
點擊界面右側上方的
,新建hadoop location。
在此頁面上,Location name欄輸入名字,隨便一個字符串都可以,除了系統保留字。
Map/Reduce(V2) Master標籤頁中,Host要輸入master節點的ip地址,我當前master節點ip地址是10.0.0.20;Port要根據配置文件輸入。打開mapred-site.xml:
此文件中沒有Map/Reduce的端口配置,只是指定了用yarn進行管理,所以需要打開yarn-site.xml:
可填入如上兩個端口中的一個。
DFS Master標籤頁中,端口號也需要根據配置文件填入,打開dfs配置文件hdfs-site.xml,發現文件內容裏沒有相應的端口號配置,打開core-site.xml
可以看到端口號是9000。按照我的集羣配置,填好後如下圖。點擊右下角“Finish”。
配置完成後,界面上會出現如下圖內容:
- 建立java的project
從主菜單開始,如下圖所示,然後選擇“Other”。
給自己的project起個名字,然後點擊“Finish”。
3. WordCount程序解釋
3.1 main方法
public static void main(String[] args) throws Exception {
從main程序看,運行時需要輸入參數,參數類型是String[],由於形參數組大小不定,是根據實參確定的,所以,輸入的數組元素的個數任意。
輸入參數的意義?
Main的輸入參數是文件路徑,其中最後一個是輸出文件的路徑,其他的是輸入文件的路徑。
3.2 TokenizerMapper
3.3 IntSumReducer
下次課運行