介紹
HDFS作爲Hadoop生態系統下一個一個分佈式文件系統,具有高容錯性特點,適合部署在廉價的機器上,提供了高吞吐量的數據訪問,非常適合大規模數據集上的應用。HDFS是一個主從結構(namenode和datanode),其中NameNode作爲主服務器,管理文件系統的命名空間和客戶端對文件的訪問操作;集羣中的DataNode管理存儲的數據。其可靠性由數據複製來保證,namenode節點負責處理所有複製相關的決策,它週期性的接受集羣中datanode結點的心跳和塊報告。一個心跳的到達表示這個datanode結點能夠正常工作,一個塊報告包括該數據結點上所有塊的列表。一個文件的存儲,也是由namenode決策分塊,和存放到哪個datanode。
Java API
本實驗使用Maven構建項目,pom文件內容如下:
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>hadoop</groupId>
<artifactId>hdfs</artifactId>
<version>1.0-SNAPSHOT</version>
<dependencies>
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>4.11</version>
<scope>test</scope>
</dependency>
<!--HDFS-->
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-hdfs</artifactId>
<version>2.6.5</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>2.6.5</version>
</dependency>
</dependencies>
</project>
HDFS Java API的使用:
package hadoop.hdfs;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.junit.Before;
import org.junit.Test;
import java.io.FileOutputStream;
import java.io.InputStream;
import java.io.OutputStream;
import java.net.URI;
public class TestHdfs {
private FileSystem fileSystem;
//連接HDFS
@Before
public void init() throws Exception{
URI uri = new URI("hdfs://192.168.80.131:9000");
Configuration configuration = new Configuration();
fileSystem = FileSystem.get(uri,configuration,"hadoop");
if(fileSystem != null){
System.out.println("連接成功");
}
}
//上傳文件
@Test
public void upload() throws Exception{
Path srcPath = new Path("G:/123.txt");
Path dstPath = new Path("hdfs/123.txt");
fileSystem.copyFromLocalFile(false,srcPath,dstPath);
fileSystem.close();
System.out.println("上傳成功");
}
//下載文件
@Test
public void download() throws Exception{
InputStream in = fileSystem.open(new Path("hdfs/阿里巴巴Java開發手冊終極版v1.3.0.pdf"));
OutputStream out = new FileOutputStream("G:/1.pdf");
IOUtils.copyBytes(in,out,4096,true);
System.out.println("下載成功");
}
/*
* 刪除文件
*/
@Test
public void delete() throws Exception{
Path path = new Path("hdfs/hadoop.txt");
fileSystem.delete(path,true);
System.out.println("*************************************");
System.out.println("刪除成功!");
}
/*
* 瀏覽文件
*/
@Test
public void look() throws Exception{
Path path = new Path("/core-site.xml");
FSDataInputStream fsDataInputStream = fileSystem.open(path);
System.out.println("*************************************");
System.out.println("瀏覽文件:");
int c;
while((c = fsDataInputStream.read()) != -1){
System.out.print((char)c);
}
fsDataInputStream.close();
}
/*
* 查看目錄
*/
@Test
public void Catalog() throws Exception{
Path path = new Path("hdfs");
FileStatus fileStatus = fileSystem.getFileStatus(path);
System.out.println("*************************************");
System.out.println("文件根目錄: "+fileStatus.getPath());
System.out.println("這文件目錄爲:");
for(FileStatus fs : fileSystem.listStatus(path)){
System.out.println(fs.getPath());
}
}
}
總結
本文簡要介紹了HDFS的基本架構和其內部的原理,之後介紹了HDFS的Java API的使用,如何文件的上傳,下載,瀏覽。