1、 對於一個新手來說,簡單地進行hadoop安裝和wordcount demo程序的驗證都是件十分不易的事情。安裝完之後把環境變量寫進/etc/profile,並source一下。
2、另外需要注意的是:
通過hadoop dfs -copyFromLocal /tmp/test.txt firstTest 是上傳測試文件到 firstTest裏。 firstTest 爲一個文件
若想上傳多個文件到一個目錄下,則需要創建一個目錄:hadoop dfs -mkdir thirdTest
然後可以上傳多個文件到這個目錄底下,然後將多個文件做爲輸入,來統計單詞個數
假如有三個文件夾在/tmp/目錄下,如下面所示爲test1.txt、test2.txt、test.txt
root@cloud1:/tmp# ls
hadoop-root Jetty_0_0_0_0_50060_task____.2vcltf
hadoop-root-datanode.pid Jetty_0_0_0_0_50070_hdfs____w2cu08
hadoop-root-jobtracker.pid Jetty_0_0_0_0_50075_datanode____hwtdwq
hadoop-root-namenode.pid Jetty_0_0_0_0_50090_secondary____y6aanv
hadoop-root-secondarynamenode.pid test1.txt
hadoop-root-tasktracker.pid test2.txt
hsperfdata_root test.txt
Jetty_0_0_0_0_50030_job____yn7qmk
上傳三個測試文件到thirdTest目錄下
hadoop dfs -copyFromLocal /tmp/test*.txt thirdTest
除此之外,需要注意,如果你上次使用過firstTest文件。這次又把測試文件的內容上傳到這個文件夾時就會出現提示,文件夾已經存在,這時就需要重新使用別的文件名,比如secondTest等
3、執行wordcount
hadoop jar hadoop-examples-1.0.4.jar wordcount thirdTest result
注意:在執行的時候可能會提醒你result 這個文件已經存在,這說明上一次你在輸出結果的時候已經使用到了result 這個文件,所以要麼刪掉result這個文件夾。,要麼輸出結果到其他文件夾裏。比如說 resultn等。