前言
最近在公司接到一個任務,是關於數據採集方面的。
需求主要有3個:
- 通過web端上傳文件到HDFS;
- 通過日誌採集的方式導入到HDFS;
- 將數據庫DB的表數據導入到HDFS。
正好最近都有在這方面做知識儲備。正所謂養兵千日,用兵一時啊。學習到的東西只有應用到真實的環境中才有意義不是麼。
環境
這裏只做模擬環境,而不是真實的線上環境,所以也很簡單,如果要使用的話還需要優化優化。
- OS Debian 8.7
- Hadoop 2.6.5
- SpringBoot 1.5.1.RELEASE
說明一下,這個系統OS最好使用Linux的,然後Hadoop也推薦使用CDH發行版的,因爲在兼容性、安全性、穩定性都要好於開源的版本。比如說CDH的易於升級維護,已解決好Hadoop生態其他產品的版本兼容問題,補丁更新比開源要及時(畢竟商業公司支持)等等
還有之所以使用SpringBoot是因爲快捷,方便,不用做一大堆的配置,不管是作爲演示還是生產開發都挺好的。
項目搭建
這裏只是做一個很簡單的演示,就是在Web頁面提供一個上傳按鈕,使用戶可以將本地文件上傳至Hadoop集羣平臺。
pom.xml
首先看下pom文件的依賴:
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>com.infosys.hadoop</groupId>
<artifactId>upload</artifactId>
<version>1.0-SNAPSHOT</version>
<name>upload</name>
<packaging>jar</packaging>
<parent>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-parent</artifactId>
<version>1.5.1.RELEASE</version>
<relativePath/> <!-- lookup parent from repository -->
</parent>
<properties>
<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
<project.reporting.outputEncoding>UTF-8</project.reporting.outputEncoding>
<hadoop.version>2.6.5</hadoop.version>
</properties>
<dependencies>
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-web</artifactId>
</dependency>
<dependency>
<groupId>javax.servlet</groupId>
<artifactId>javax.servlet-api</artifactId>
<version>3.1.0</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>${hadoop.version}</version>
<exclusions>
<exclusion>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-log4j12</artifactId>
</exclusion>
</exclusions>
</dependency>
<!-- Test -->
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>4.12</version>
<scope>test</scope>
</dependency>
<dependency>
<groupId>org.apache.mrunit</groupId>
<artifactId>mrunit</artifactId>
<version>1.1.0</version>
<classifier>hadoop2</classifier>
<scope>test</scope>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-minicluster</artifactId>
<version>${hadoop.version}</version>
<scope>test</scope>
</dependency>
</dependencies>
<build>
<finalName>${project.artifactId}</finalName>
<plugins>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-archetype-plugin</artifactId>
<version>2.2</version>
</plugin>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-resources-plugin</artifactId>
<configuration>
<encoding>UTF-8</encoding>
</configuration>
</plugin>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-compiler-plugin</artifactId>
<version>3.1</version>
<configuration>
<source>1.8</source>
<target>1.8</target>
</configuration>
</plugin>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-jar-plugin</artifactId>
<version>2.5</version>
<configuration>
<outputDirectory>${basedir}</outputDirectory>
</configuration>
</plugin>
<plugin>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-maven-plugin</artifactId>
</plugin>
</plugins>
</build>
</project>
我們就是添加了一個SpringBoot和Hadoop Client的依賴。其他的是一些測試相關的。關於這個Hadoop Client它提供了一些開發Hadoop應用所需的所有依賴,可以參考之前的一篇博客:Hadoop 2.x Maven開發環境搭建
首頁
首頁界面就只是提供一個上傳表單按鈕:
index.html
<!doctype html>
<html lang="en">
<head>
<meta charset="UTF-8">
<meta name="viewport"
content="width=device-width, user-scalable=no, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0">
<meta http-equiv="X-UA-Compatible" content="ie=edge">
<title>Upload</title>
</head>
<body>
<form action="/upload" method="post" enctype="multipart/form-data">
<p>
文件:<input type="file" name="file">
</p>
<p>
<input type="submit" value="上傳">
</p>
</form>
</body>
</html>
然後在Controller提供一個接口進行訪問首頁:
HomeController.java
@Controller
@RequestMapping(value = "/")
public class HomeController {
public ModelAndView home() {
return new ModelAndView("index");
}
}
上傳
上傳的邏輯也很簡單,就是使用SpringBoot
上傳文件的形式先將文件接收到後臺,然後調用Hadoop
提供的接口API執行上傳。
上傳接口UploadController.java
@Controller
public class UploadController {
@PostMapping("/upload")
@ResponseBody
public String handleFileUpload(@RequestParam("file") MultipartFile file) {
if (!file.isEmpty()) {
try {
String originalFilename = file.getOriginalFilename();
BufferedOutputStream out = new BufferedOutputStream(
new FileOutputStream(
new File(originalFilename)
)
);
out.write(file.getBytes());
out.flush();
out.close();
String destFileName = "/user/hadoop/" + originalFilename;
Upload.main(new String[]{originalFilename, destFileName});
} catch (FileNotFoundException e) {
e.printStackTrace();
return "上傳失敗," + e.getMessage();
} catch (IOException e) {
e.printStackTrace();
return "上傳失敗, " + e.getMessage();
}
return "上傳成功";
} else {
return "上傳失敗,文件爲空。";
}
}
}
最後我們在提供一個類來操作Hadoop接口。
Upload.java
public class Upload {
public static final String FS_DEFAULT_FS = "fs.defaultFS";
public static final String HDFS_HOST = "hdfs://192.168.1.2:9000";
public static final String CROSS_PLATFORM = "mapreduce.app-submission.cross-platform";
public static void main(String[] args) throws IOException {
Configuration conf = new Configuration();
conf.setBoolean(CROSS_PLATFORM, true);
conf.set(FS_DEFAULT_FS, HDFS_HOST);
GenericOptionsParser optionsParser = new GenericOptionsParser(conf, args);
String[] remainingArgs = optionsParser.getRemainingArgs();
if (remainingArgs.length < 2) {
System.err.println("Usage: upload <source> <dest>");
System.exit(2);
}
Path source = new Path(args[0]);
Path dest = new Path(args[1]);
FileSystem fs = FileSystem.get(conf);
fs.copyFromLocalFile(true, false, source, dest);
}
}
其中的fs.defaultFS屬性需要與集羣Master NameNode節點中配置的一直。該屬性配置一般在etc/hadoop/core-site.xml
文件中進行定義。
可以看到我們實際的操作很簡單,就只是調用Hadoop的FileSystem接口中的copyFromLocalFile
方法,該方法參數說明:
- 第一個參數:表示是否刪除本地的源文件,也就是上傳文件後是否保留原文件,這裏爲了避免後續文件越來越多,就直接採用上傳成功就刪除的方式。
- 第二個參數:表示是否覆蓋已存在的文件,這裏false表示不覆蓋,如果HDFS集羣中已存在該文件,就提示上傳失敗。
- 第三個參數:源文件路徑
- 第四個參數:上傳到HDFS指定的路徑
後記
當然上傳的方式肯定不止這一種,比如:通過Hadoop的rest接口調用PUT也可以上傳,還有Python等其他語言也有相應的API接口等等
如果是要做成平臺的話,這樣肯定是遠遠不夠的,每個用戶都可以上傳就需要做好隔離措施,我們可以採用HDFS目錄隔離的方式,不過我覺得這樣不夠好,最好採用CDH支持的kerberos進行授權認證的方式比較好。開源的Hadoop默認只支持Simple的形式,也就是與操作系統一致的用戶驗證。