HDFS簡單使用

原創

2020-06-29 11:32

介紹

HDFS作爲Hadoop生態系統下一個一個分佈式文件系統，具有高容錯性特點，適合部署在廉價的機器上，提供了高吞吐量的數據訪問，非常適合大規模數據集上的應用。HDFS是一個主從結構(namenode和datanode)，其中NameNode作爲主服務器，管理文件系統的命名空間和客戶端對文件的訪問操作；集羣中的DataNode管理存儲的數據。其可靠性由數據複製來保證，namenode節點負責處理所有複製相關的決策，它週期性的接受集羣中datanode結點的心跳和塊報告。一個心跳的到達表示這個datanode結點能夠正常工作，一個塊報告包括該數據結點上所有塊的列表。一個文件的存儲，也是由namenode決策分塊，和存放到哪個datanode。

Java API

本實驗使用Maven構建項目，pom文件內容如下：

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>hadoop</groupId>
    <artifactId>hdfs</artifactId>
    <version>1.0-SNAPSHOT</version>

    <dependencies>
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>4.11</version>
            <scope>test</scope>
        </dependency>
        <!--HDFS-->
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-hdfs</artifactId>
            <version>2.6.5</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>2.6.5</version>
        </dependency>
    </dependencies>

</project>

HDFS Java API的使用：

package hadoop.hdfs;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.junit.Before;
import org.junit.Test;

import java.io.FileOutputStream;
import java.io.InputStream;
import java.io.OutputStream;
import java.net.URI;

public class TestHdfs {
    private FileSystem fileSystem;

    //連接HDFS
    @Before
    public void init() throws Exception{
        URI uri = new URI("hdfs://192.168.80.131:9000");
        Configuration configuration = new Configuration();
        fileSystem = FileSystem.get(uri,configuration,"hadoop");
        if(fileSystem != null){
            System.out.println("連接成功");
        }
    }

    //上傳文件
    @Test
    public void upload() throws  Exception{
        Path srcPath = new Path("G:/123.txt");
        Path dstPath = new Path("hdfs/123.txt");
        fileSystem.copyFromLocalFile(false,srcPath,dstPath);
        fileSystem.close();
        System.out.println("上傳成功");
    }

    //下載文件
    @Test
    public void download() throws Exception{
        InputStream in = fileSystem.open(new Path("hdfs/阿里巴巴Java開發手冊終極版v1.3.0.pdf"));
        OutputStream out = new FileOutputStream("G:/1.pdf");
        IOUtils.copyBytes(in,out,4096,true);
        System.out.println("下載成功");
    }

    /*
     * 刪除文件
     */
    @Test
    public void delete() throws Exception{
        Path path = new Path("hdfs/hadoop.txt");
        fileSystem.delete(path,true);
        System.out.println("*************************************");
        System.out.println("刪除成功！");
    }

    /*
     * 瀏覽文件
     */
    @Test
    public void look() throws Exception{
        Path path = new Path("/core-site.xml");
        FSDataInputStream fsDataInputStream = fileSystem.open(path);
        System.out.println("*************************************");
        System.out.println("瀏覽文件：");
        int c;
        while((c = fsDataInputStream.read()) != -1){
            System.out.print((char)c);
        }
        fsDataInputStream.close();
    }

    /*
     * 查看目錄
     */
    @Test
    public void Catalog() throws Exception{
        Path path = new Path("hdfs");
        FileStatus fileStatus = fileSystem.getFileStatus(path);
        System.out.println("*************************************");
        System.out.println("文件根目錄: "+fileStatus.getPath());
        System.out.println("這文件目錄爲：");
        for(FileStatus fs : fileSystem.listStatus(path)){
            System.out.println(fs.getPath());
        }
    }
}

總結

本文簡要介紹了HDFS的基本架構和其內部的原理，之後介紹了HDFS的Java API的使用，如何文件的上傳，下載，瀏覽。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

HDFS簡單使用

介紹

Java API

總結

Java閉鎖2（Callable接口的模擬與應用）

詞典快速匹配方案

圖的深度、廣度優先、最小生成樹、最短路徑算法(Java版本)

ActiveMQ之快速上手

二叉樹的遞歸與非遞歸方式的先序、中序、後序、層序遍歷算法(Java版本)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結