使用Hadoop自帶的例子wordcount實現詞頻統計

Hadoop中自帶的hadoop-mapreduce-examples-2.7.6.jar含有一些事例,本文將用wordcount實現詞頻統計。具體步驟如下:

1. 啓動Hadoop

    切換到Hadoop安裝目錄下的sbin目錄下執行./start-all.sh命令

    或執行./start-dfs.sh./start-yarn.sh兩條命令

2. 在集羣中創建目錄inputdata_w

    hdfs dfs -mkdir /inputdata_w

3. 將Hadoop安裝目錄下的LICENSE.txt、README.txt、NOTICE.txt文件上傳到集羣

    hdfs dfs -put ../LICENSE.txt /inputdata_w

    hdfs dfs -put ../README.txt /inputdata_w

    hdfs dfs -put ../NOTICE.txt /inputdata_w

4. 使用hadoop-mapreduce-examples-2.7.6.jar對上傳的數據進行詞頻統計

    hadoop jar ../share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar wordcount /inputdata_w

    /output/wordcountout01

5. 查看統計結果

    hdfs dfs -cat /output/wordcountout01/part-r-00000

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章