flume案例支持

2019/2/22 星期五

flume案例支持

flume的部署類型 //參考鏈接爲 https://www.cnblogs.com/qingyunzong/p/8994494.html
1、單一流程
2、多代理流程(多個agent順序鏈接) 不推薦 有一段失敗則整個event事件失敗
3、流的合併(多個Agent的數據匯聚到同一個Agent ) //應用場景廣泛
4、多路複用流(多級流)//Flume還支持多級流,什麼多級流?來舉個例子,當syslog, java, nginx、 tomcat等混合在一起的日誌流開始流入一個agent後,可以agent中將混雜的日誌流分開,然後給每種日誌建立一個自己的傳輸通道。
5、load balance功能 //Agent1是一個路由節點,負責將Channel暫存的Event均衡到對應的多個Sink組件上,而每個Sink組件分別連接到一個獨立的Agent上 。

Flume 作用
Flume 工作機制
Flume 架構、組件
flume 常用配置

Flume Sources 描述
Avro source :Avro是一個數據序列化系統,設計用於支持大 批量數據交換的應用
Avro 可以發送一個給定的文件給Flume,Avro 源使用AVRO RPC 機制。
Thrift Source :ThriftSource 與Avro Source 基本一致。只要把source的類型改成thrift即可,例如a1.sources.r1.type = thrift,比較簡單
Exec Source :ExecSource的配置就是設定一個Unix(linux)命令,然後通過這個命令不斷輸出數據。如果進程退出,Exec Source也一起退出,不會產生進一步的數據。//EXEC 執行一個給定的命令獲得輸出的源,如果要使用tail 命令,必選使得file 足夠大才能看到輸出內容。
JMS Source:從JMS系統(消息、主題)中讀取數據,
Spooling Directory Source:Spooling Directory Source監測配置的目錄下新增的文件,並將文件中的數據讀取出來。
其中,Spool Source有2個注意地方,第一個是拷貝到spool目錄下的文件不可以再打開編輯,第二個是spool目錄下不可包含相應的子目錄。這個主要用途作爲對日誌的準實時監控。
Syslogtcp Source:Syslogtcp 監聽TCP 的端口做爲數據源
JSONHandler Source:

sink
Hadoop sink :把數據最終存儲在hdfs上
File Roll Sink : 在本地文件系統中存儲事件。每隔指定時長生成文件保存這段時間內收集到的日誌信息。

channel
Replicating Channel Selector:
Flume 支持Fan out 流從一個源到多個通道。有兩種模式的Fan out,分別是複製和複用。
在複製的情況下,流的事件被髮送到所有的配置通道。
在複用的情況下,事件被髮送到可用的渠道中的一個子集。
Fan out 流需要指定源和Fan out 通道的規則。

Memory Channel event保存在Java Heap中。如果允許數據小量丟失,推薦使用
File Channel event保存在本地文件中,可靠性高,但吞吐量低於Memory Channel
JDBC Channel event保存在關係數據中,一般不推薦使用

Flume 入門--幾種不同的Sinks https://www.cnblogs.com/itdyb/p/6270893.html
Flume的Source類型 https://www.cnblogs.com/qingyunzong/p/8995554.html
Flume:三種channel比較 https://blog.csdn.net/weixin_38750084/article/details/83059871

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章