我的第一個hadoop學習例子

原創

森森之火

2020-06-22 13:06

hadoop環境搭建好後，相信大家是很興奮的，迫不及待的相做一個最簡單的例子，看下效果，認識下hadoop真實面目，具體步驟如下

一、啓動hadoop

我們這裏用的是spark集羣環境裏的hadoop環境，關於spark集羣搭建請看 ubuntu環境中 docker 安裝spark集羣

進入docker-compose的配製文件目錄

執行

docker-compose up -d

後臺啓動spark集羣

訪問 http://ip:50070/ 結果如下

說明集羣啓動成功

二、進入hadoop運行的容器中創建文件並運行

1、查看運行的容器

docker ps

2、進入master節點

docker exec -it 8fe7a7847a05 /bin/bash

3 、創建需要hadoop處理的文件

進入local目錄

cd /usr/local

創建test目錄

mkdir test

進入test目錄

cd test

創建test.txt文件

touch test.txt

編輯test.txt文件

vim test.txt文件

加入內容是（大家可以自定義）

dfgdgh hello 11 df df df 22 22 df 22 df 33 22 df hello hello hello say say world df fs fs df fs world hello

4、hdfs系統裏創建input文件

hadoop fs -mkdir /input

5、傳入測試文件：hadoop fs -put test.txt /input

6、查看剛剛傳入的文件：hadoop fs -ls /input

7、運行wordcount示例

hadoop jar /usr/local/hadoop-2.8.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.2.jar wordcount /input /output

（具體命令格式爲 hadoop jar /xx/xx/hadoop-mapreduce-examples-2.8.2.jar wordcount /處理文件目錄 /結果輸出目錄）

部分截圖

說明運行成功

三、查看運行結果

1、查看目錄：

hadoop fs -ls

多了個output目錄

2、查看output目錄

hadoop fs -ls /output

part-r-00000 是存儲結果的文件，

_SUCCESS 是Mapreduce 自帶的，表示hadoop執行成功，一般是空的，也可以配置不讓它輸出

3、查看執行結果

hadoop fs -cat /output/part-r-00000

4、訪問http://IP:50070 HDFSwebUI的端口號也可以查看

我的訪問地址是 http://192.168.153.130:50070/

進入input目錄

進入output目錄

到此，hadoop的小例子已經完全成功，hadoop的面紗已經初步揭開了

四、總結:

1】、利用hadoop統計文件的主要流程分爲

hadoop的hdfs系統上創建用來存放分析文件的文件夾--->上傳文件到hdfs---->運行統計命令--->查看統計結果

2】、hadoop的操作主要命令（更多命令請看 Hadoop常用命令總結 ）

1、查看指定目錄下內容

hdfs dfs –ls [文件目錄]

    hdfs dfs -ls -R   /                   //顯式目錄結構

    eg: hdfs dfs –ls /user/wangkai.pt

   2、打開某個已存在文件

    hdfs dfs –cat [file_path]

   eg:hdfs dfs -cat /user/wangkai.pt/data.txt

3、將本地文件存儲至hadoop

     hdfs dfs –put [本地地址] [hadoop目錄]

     hdfs dfs –put /home/t/file.txt /user/t

4、將本地文件夾存儲至hadoop

    hdfs dfs –put [本地目錄] [hadoop目錄]
    hdfs dfs –put /home/t/dir_name /user/t

   (dir_name是文件夾名)

5、將hadoop上某個文件down至本地已有目錄下

     hadoop dfs -get [文件目錄] [本地目錄]

     hadoop dfs –get /user/t/ok.txt /home/t

6、刪除hadoop上指定文件

     hdfs dfs –rm [文件地址]

     hdfs dfs –rm /user/t/ok.txt

  7、刪除hadoop上指定文件夾（包含子目錄等）

     hdfs dfs –rm [目錄地址]

     hdfs dfs –rmr /user/t

8、在hadoop指定目錄內創建新目錄

      hdfs dfs –mkdir /user/t

      hdfs dfs -mkdir - p /user/centos/hadoop

9、在hadoop指定目錄下新建一個空文件

使用touchz命令：

  hdfs dfs -touchz /user/new.txt

10、將hadoop上某個文件重命名

   使用mv命令：

   hdfs dfs –mv /user/test.txt /user/ok.txt   （將test.txt重命名爲ok.txt）

  11、將hadoop指定目錄下所有內容保存爲一個文件，同時down至本地

   hdfs dfs –getmerge /user /home/t

  12、將正在運行的hadoop作業kill掉

   hadoop job –kill [job-id]

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

我的第一個hadoop學習例子

java集合的底層原理（Map的底層原理（WeakHashMap）四）

冒泡排序算法之解析及優化(一看就懂)

java集合的底層原理（Map的底層原理（LinkedHashMap）三）

利用docker搭建hadoop的開發環境（超簡單）

ubuntu環境裏用docker 安裝 hbase安裝

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結