如何使用Hadoop提供的Streaming,我們可以通過Linux中的命令來實驗,比如查看一個文件中的數字統計可以使用下面的命令:
cat sample.txt | wc
其中sample.txt表示需要統計的文件,|表示管道,wc統計數據的命令
現在使用Streaming形式統計Hadoop中的sample.txt的數字。
1.把sample.txt上傳到hadoop中,:hadoop dfs -put sample.txt /user/long1657/input
2.通過下面命令來運行命令:
hadoop jar hadoop/hadoop-0.20.2/contrib/streaming/hadoop-0.20.2-streaming.jar -input /user/long1657/input/sample.txt -output /user/long1657/outStream -mapper cat -reducer wc
通過查看可以hadoop中生成的結果可以查看具體的信息。