（一）Flume概述及快速入門

一、Flume概述

1. Flume定義

Flume是Cloudera提供的一個高可用的，高可靠的，分佈式的海量日誌採集、聚合和傳輸的系統。Flume基於流式架構，靈活簡單。
Flume最主要的作用就是，實時讀取服務器本地磁盤的數據，將數據寫入到HDFS。

2. Flume基礎架構

2.1 Agent

Agent 是一個JVM進程，它以事件的形式將數據從源頭送至目的。
Agent 主要有3個部分組成，Source、Channel、Sink。
一個Source可以對應多個Channel，一個Sink只能對應一個Channel。

2.2 Source

Source是負責接收數據到Flume Agent的組件。Source組件可以處理各種類型、各種格式的日誌數據，包括avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy、tailDir。

exec：監控文件，能實時，不能實現斷點續傳
spooling directory：監控目錄，不能實時監控，能實現斷點續傳，
netcat：收集某個端口的數據，測試用的比較多
avro：Flume串聯的時候才使用的到，實現Agent的串聯。
taildir：既能夠實現斷點續傳，又可以保證數據不丟失，還能夠進行實時監控

2.3 Sink

Sink不斷地輪詢Channel中的事件且批量地移除它們，並將這些事件批量寫入到存儲或索引系統、或者被髮送到另一個Flume Agent。
Sink組件目的地包括hdfs、logger、avro、thrift、ipc、file、HBase、solr、自定義。

hdfs：
logger：接收到的數據通過日誌的形式打印出來，測試的時候使用比較多
file：接收到的寫到本地文件
HBase：

2.4 Channel

解耦的作用，具有緩衝的作用.
Flume 自帶兩重channel：Memory Channel和File Channel。

Memory Channel：內存中的隊列，速度快，在不需要關心數據丟失的情景下適用。
File Channel：將所有事件寫到磁盤，穩定性高。

2.5 Event

Flume數據傳輸的基本單元，以Event的形式將數據從源頭送至目的地。
Event由Header和Body兩部分組成，Header用來存放該event的一些屬性，爲K-V結構，Body用來存放該條數據，形式爲字節數組。

二、Flume快速入門

1. Flume安裝部署

1.1 安裝地址

（1） Flume官網地址
http://flume.apache.org/
（2）文檔查看地址
http://flume.apache.org/FlumeUserGuide.html
（3）下載地址
http://archive.apache.org/dist/flume/

1.2 安裝部署

將apache-flume-1.7.0-bin.tar.gz上傳到linux的/opt/software目錄下
解壓apache-flume-1.7.0-bin.tar.gz到/opt/module/目錄下

tar -zxf apache-flume-1.7.0-bin.tar.gz -C /opt/module/

我修改apache-flume-1.7.0-bin的名稱爲flume
將flume/conf下的flume-env.sh.template文件修改爲flume-env.sh，並配置flume-env.sh文件

export JAVA_HOME=/opt/module/jdk1.8.0_144

2. Flume入門案例

2.1 監控端口數據案例

需求：
使用Flume監聽一個端口，收集該端口數據，並打印到控制檯。
需求分析
（1）通過netcat工具箱本機的某個端口（這裏設爲44444）發送數據
（2）Flume監控本機的44444端口，通過Flume 的 source 端讀取數據。
（3）Flume將獲取的數據通過 Sink 端寫出到控制檯。
實現步驟
（1）安裝 netcat 工具

sudo yum install -y nc

（2）判斷 44444 端口是否被佔用

sudo netstat -tunlp | grep 4444

（3）創建Flume Agent 配置文件 flume-netcat-logger.conf
①在 flume 目錄下創建 job 文件夾並進入job 文件夾。
②在job 文件夾下創建 Flume Agent 配置文件 flume-netcat-logger.conf
在flume-netcat-logger.conf文件中添加如下內容：

# Name the components on this agent
# 給source、channel、sink命名
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
# 描述source
a1.sources.r1.type = netcat
a1.sources.r1.bind = hadoop102
a1.sources.r1.port = 44444

# Describe the sink
# 描述sink
a1.sinks.k1.type = logger

# Use a channel which buffers events in memory
# 描述channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 10000
a1.channels.c1.transactionCapacity = 1000

# Bind the source and sink to the channel
# 指定source 與 channel，sink 與 channel的關係
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

關於配置文件配置也可自行查看官方手冊http://flume.apache.org/FlumeUserGuide.html

配置文件的解析如下：

（4）先開啓flume 監聽端口
第一種寫法：

[fseast@hadoop102 flume]$ bin/flume-ng agent --conf conf/ --name a1 --conf-file job/flume-netcat-logger.conf -Dflume.root.logger=INFO,console

第二種寫法：

[fseast@hadoop102 flume]$ bin/flume-ng agent -c conf/ -n a1 -f job/flume-netcat-logger.conf -Dflume.root.logger=INFO,console

參數說明：

	--name/-n：表示給agent起名爲a1
	--conf-file/-f：flume本次啓動讀取的配置文件是在job文件夾下的flume-telnet.conf文件。
	-Dflume.root.logger=INFO,console ：-D表示flume運行時動態修改flume.root.logger參數屬性值，
		並將控制檯日誌打印級別設置爲INFO級別。日誌級別包括:log、info、warn、error。

（5）再開一個hadoop102的窗口，使用netcat工具向本機的4444端口發送內容

[fseast@hadoop102 ~]$ nc hadoop102 44444
hello 
test

（6）在Flume 監聽頁面觀察接收數據情況：

2.2 實時監控單個文件案例

案例需求：實時監控某個文件，並上傳到HDFS 中
分析：
使用Exec Source，要想讀取Linux系統中的文件，就得按照Linux命令的規則執行命令。由於Hive日誌在Linux系統中所以讀取文件的類型選擇：exec即execute執行的意思。表示執行Linux命令來讀取文件。
使用Memory Channel
使用HDFS Sink
（1）創建符合條件的flume配置文件
（2）執行配置文件，開啓監控。
（3）追加數據到/opt/module/datas/hive/hive.log
（4）查看HDFS上數據
步驟
（1）Flume要想將數據輸出到HDFS，必須持有Hadoop相關jar包（如果已經裝hadoop並配了HADOOP_HOME的，可以不用導jar包，如果在業務服務器上（沒有裝hadoop的），就需要導下面的jar包）
將：

commons-configuration-1.6.jar、
hadoop-auth-2.7.2.jar、
hadoop-common-2.7.2.jar、
hadoop-hdfs-2.7.2.jar、
commons-io-2.4.jar、
htrace-core-3.1.0-incubating.jar

拷貝到flume安裝目錄下的lib文件夾下。

（2）創建 flume-file-hdfs.conf文件
添加如下內容：

# Name the components on this agent
a2.sources = r2
a2.sinks = k2
a2.channels = c2

# Describe/configure the source
a2.sources.r2.type = exec
a2.sources.r2.command = tail -F /opt/module/datas/hive/hive.log
a2.sources.r2.shell = /bin/bash -c

# Describe the sink
a2.sinks.k2.type = hdfs
a2.sinks.k2.hdfs.path = hdfs://hadoop102:9000/flume/%Y%m%d/%H%M
#上傳文件的前綴
a2.sinks.k2.hdfs.filePrefix = logs-
#是否按照時間滾動文件夾
a2.sinks.k2.hdfs.round = true
#多少時間單位創建一個新的文件夾
a2.sinks.k2.hdfs.roundValue = 1
#重新定義時間單位
a2.sinks.k2.hdfs.roundUnit = hour
#是否使用本地時間戳
a2.sinks.k2.hdfs.useLocalTimeStamp = true
#積攢多少個Event才flush到HDFS一次
a2.sinks.k2.hdfs.batchSize = 100
#多久生成一個新的文件
a2.sinks.k2.hdfs.rollInterval = 60
#設置每個文件的滾動大小
a2.sinks.k2.hdfs.rollSize = 134217700
#文件的滾動與Event數量無關
a2.sinks.k2.hdfs.rollCount = 0

# Use a channel which buffers events in memory
a2.channels.c2.type = memory
a2.channels.c2.capacity = 10000
a2.channels.c2.transactionCapacity = 1000

# Bind the source and sink to the channel
a2.sources.r2.channels = c2
a2.sinks.k2.channel = c2

注意：
對於所有與時間相關的轉義序列，Event Header中必須存在以 “timestamp”的key（除非hdfs.useLocalTimeStamp設置爲true，此方法會使用TimestampInterceptor自動添加timestamp）。
a2.sinks.k2.hdfs.useLocalTimeStamp = true
配置文件解析：

（3）運行Flume（因爲要上傳到HDFS，所以先啓動hadoop）

[fseast@hadoop102 flume]$ bin/flume-ng agent --conf conf/ --name a2 --conf-file job/flume-file-hdfs.conf

（4）向 /opt/module/datas/hive/hive.log追加文件
（5）在HDFS上查看文件：

2.3 監控多個新文件案例

案例需求：使用Flume 監聽整個目錄的文件，並上傳至HDFS
需求分析：
（1）創建符合條件的flume配置文件
（2）執行配置文件，開啓監控
（3）向被監控目錄添加文件
（4）查看HDFS上數據
（5）查看/opt/module/datas/flume目錄中上傳的文件是否已經標記爲.COMPLETED結尾。.tmp後綴結尾文件沒有上傳。
實現步驟：
（1）創建配置文件 flume-dir-hdfs.conf
並添加如下內容：

a3.sources = r3
a3.sinks = k3
a3.channels = c3

# Describe/configure the source
a3.sources.r3.type = spooldir
a3.sources.r3.spoolDir = /opt/module/datas/flume
a3.sources.r3.fileSuffix = .COMPLETED
#忽略所有以.tmp結尾的文件，不上傳
a3.sources.r3.ignorePattern = \\S*\\.tmp

# Describe the sink
a3.sinks.k3.type = hdfs
a3.sinks.k3.hdfs.path = hdfs://hadoop102:9000/flume/upload/%Y%m%d/%H%M
#上傳文件的前綴
a3.sinks.k3.hdfs.filePrefix = upload-
#是否按照時間滾動文件夾
a3.sinks.k3.hdfs.round = true
#多少時間單位創建一個新的文件夾
a3.sinks.k3.hdfs.roundValue = 1
#重新定義時間單位
a3.sinks.k3.hdfs.roundUnit = hour
#是否使用本地時間戳
a3.sinks.k3.hdfs.useLocalTimeStamp = true
#積攢多少個Event才flush到HDFS一次
a3.sinks.k3.hdfs.batchSize = 100
#設置文件類型，可支持壓縮
a3.sinks.k3.hdfs.fileType = DataStream
#多久生成一個新的文件
a3.sinks.k3.hdfs.rollInterval = 60
#設置每個文件的滾動大小大概是128M
a3.sinks.k3.hdfs.rollSize = 134217700
#文件的滾動與Event數量無關
a3.sinks.k3.hdfs.rollCount = 0

# Use a channel which buffers events in memory
a3.channels.c3.type = memory
a3.channels.c3.capacity = 10000
a3.channels.c3.transactionCapacity = 1000

# Bind the source and sink to the channel
a3.sources.r3.channels = c3
a3.sinks.k3.channel = c3

配置分析：
（2）啓動監控文件夾命令

[fseast@hadoop102 flume]$ bin/flume-ng agent --conf conf/ --name a3 --conf-file job/flume-dir-hdfs.conf

（3）在目錄外創建幾個文件，並移動到/opt/module/datas/flume目錄下
（4）查看HDFS上的數據
（5）查看監控文件/opt/module/datas/flume

2.4 實時監控多個文件案例

Exec source適用於監控一個實時追加的文件，但不能保證數據不丟失；Spooldir Source能夠保證數據不丟失，且能夠實現斷點續傳，但延遲較高，不能實時監控；而Taildir Source既能夠實現斷點續傳，又可以保證數據不丟失，還能夠進行實時監控。

案例需求：使用Flume監聽整個目錄的實時追加文件，並上傳至HDFS
需求分析：
（1）創建符合條件的flume配置文件
（2）執行配置文件，開啓監控
（3）向監控文件追加內容
（4）查看HDFS上數據
實現步驟：
（1）創建配置文件 flume-taildir-hdfs.conf
並添加如下內容：

a3.sources = r3
a3.sinks = k3
a3.channels = c3

# Describe/configure the source
a3.sources.r3.type = TAILDIR
a3.sources.r3.positionFile = /opt/module/datas/tail_dir.json
a3.sources.r3.filegroups = f1
a3.sources.r3.filegroups.f1 = /opt/module/datas/flume2/file.*

# Describe the sink
a3.sinks.k3.type = hdfs
a3.sinks.k3.hdfs.path = hdfs://hadoop102:9000/flume/upload/%Y%m%d/%H%M
#上傳文件的前綴
a3.sinks.k3.hdfs.filePrefix = upload-
#是否按照時間滾動文件夾
a3.sinks.k3.hdfs.round = true
#多少時間單位創建一個新的文件夾
a3.sinks.k3.hdfs.roundValue = 1
#重新定義時間單位
a3.sinks.k3.hdfs.roundUnit = hour
#是否使用本地時間戳
a3.sinks.k3.hdfs.useLocalTimeStamp = true
#積攢多少個Event才flush到HDFS一次
a3.sinks.k3.hdfs.batchSize = 100
#設置文件類型，可支持壓縮
a3.sinks.k3.hdfs.fileType = DataStream
#多久生成一個新的文件
a3.sinks.k3.hdfs.rollInterval = 60
#設置每個文件的滾動大小大概是128M
a3.sinks.k3.hdfs.rollSize = 134217700
#文件的滾動與Event數量無關
a3.sinks.k3.hdfs.rollCount = 0

# Use a channel which buffers events in memory
a3.channels.c3.type = memory
a3.channels.c3.capacity = 10000
a3.channels.c3.transactionCapacity = 1000

# Bind the source and sink to the channel
a3.sources.r3.channels = c3
a3.sinks.k3.channel = c3

配置分析：
（2）啓動架空文件夾命令

[fseast@hadoop102 flume]$ bin/flume-ng agent --conf conf/ --name a3 --conf-file job/flume-taildir-hdfs.conf

（3）向flume2文件夾中追加內容
在/opt/module/datas/目錄下創建flume2文件夾
向文件夾中添加文件

[fseast@hadoop102 files]$ echo hello >> file1.txt

（4）查看HDFS上的數據

Taildir 簡要了解：
Taildir Source 維護了一個 json 格式的 position File，其會定期的往 position File 中更新每個文件讀取到的最新的位置，因此能夠實現斷點續傳。

（一）Flume概述及快速入門

目錄

一、Flume概述

1. Flume定義

2. Flume基礎架構

2.1 Agent

2.2 Source

2.3 Sink

2.4 Channel

2.5 Event

二、Flume快速入門

1. Flume安裝部署

1.1 安裝地址

1.2 安裝部署

2. Flume入門案例

2.1 監控端口數據案例

2.2 實時監控單個文件案例

2.3 監控多個新文件案例

2.4 實時監控多個文件案例

中外程序員到底有啥區別？

Nginx R31 doc-13-Limiting Access to Proxied HTTP Resources 訪問限流

Python數據分析與挖掘實戰（5章）

python包：pandas

C++文件/流

一、什麼是Docker

二、Docker 組件

揹包九講一 01揹包

今天！通義靈碼在北京、成都、杭州三城開講啦

【BI 可視化插件】怎麼做？手把手教你實現

（七）Spark——Structured Streaming

（二）HDFS——節點分析及新特性

（六）Spark——Spark Streaming

（一）Flume概述及快速入門

可視化工具 DBeaver6.1.5 連接Hive和Phoenix教程

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結