1,安裝Hadoop
拷貝文件
配置環境變量
運行/share/hadoop中的demo:grep,Wordcount
###grep 利用正則表達式統計文件文件中出現的符合要求的字符串的個數
具體命令:
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar grep input output 'py[a-z.]+'
Wordcount(對英文進行計數的程序)
##2,使用HDFS 作用:把所有的單詞列舉出來,並統計每個單詞的出現次數,按照空格分開
命令:
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar wordcount input output
##3,配置分佈式Hadoop(僞分佈式) 不是真正的分佈式,是僞分佈式,只在本機進行運行
步驟:主要配置三個文件:/etc/hadoop/
hadoop-env.sh
將jdk的路徑加入到最下面
`
export JAVA_HOME=/home/ubuntu/jdk
`
core-site.xml
<!-----指定HDFS中NameNode的地址------>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop1:9000</value>
</property>
<!-----hadoop運行產生文件的存儲目錄------>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/ubuntu/hadoop/data</value>
</property>
Hdfs-site.xml
<!-----指定HDFS副本數量------>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
至此僞分佈式環境的集羣已經搭建完畢,然後初始化名稱結點
hdfs namenode -format
啓動集羣
hdfs --daemon start namenode
hdfs --daemon start datanode
jps --守護進程,查看是否啓動成功
可以通過web界面訪問來查看分佈式狀態: http://47.115.37.42:9870/dfshealth.html#tab-overview
4,在hadoop中運行程序
eg:在hdfs中創建文件夾
hdfs dfs -mkdir -p /user/hadoop/input
hdfs dfs -put input/test.txt /user/hadoop/input