目标:利用搭建好的Hadoop运行最经典的WordCount实例
步骤:
1、配置启动YARN,在hadoop安装目录下,进入etc/hadoop
配置mapred-site.xml,默认没有mapred-site.xml,从模板文件mapred-site.xml.template生成
cp mapred-site.xml.template mapred-site.xml
并添加如下配置:
然后配置yarn-site.xml: 指定yarn的默认混洗方式mapreduce,指定节点localhost
配置完毕,启动Resourcemanager和nodemanager,在hadoop安装目录下执行如下命令:
./sbin/yarn-daemon.sh start resourcemanager ./sbin/yarn-daemon.sh start nodemanager
使用jps查看:此6个服务缺一不可
可以通过yarn的服务界面查看:localhost:8088,此处只能在服务器本机上访问,如果想在客户端浏览器访问,则修改yarn-site.xml文件,指定节点hostname为服务器ip,最终客户端浏览器访问如下:
2、运行MapReduce Job
Hadoop/share自带jar包,有一些mapreduce的demo,位置:share/hadoop/mapreduce/hadoop-mapreduce-examples.-2.5.0.jar
在HDFS上创建一个目录作为输入文件的存放点:hdfs dfs -mkdir -p /wordcountdemo/input
vi data.input 输入英文单词作为输入参数:
将新建的文件上传到HDFS上/wordcountdemo/input:hdfs dfs -put data.input /wordcountdemo/input
hadoop安装目录/bin目录下运行如下命令:将输出结果定位至 /wordcountdemo/output
yarn jar ../share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar wordcount /wordcountdemo/input /wordcountdemo/output
查看运行结果:hdfs dfs -cat /wordcountdemo/output/part-r-00000