Flume學習筆記 --- Flume數據抽取

原創

杨鑫newlfe

2019-07-30 02:25

1.Flume支持許多從外部源獲取數據的機制。

2.RPC模式
Flume發行版本包含的Avro客戶端可以使用Avro RPC 機制將給定文件發送到Flume Avro源。

$ bin/flume-ng avro-client -H localhost -p 41414 -F /usr/logs/log.10

上面的命令會將/usr/logs/log.10的內容發送到監聽該端口的Flume源。

3.執行命令
有一個exec源執行給定的命令並消費輸出數據。輸出的單條數據即文本後面跟着 \r 或者 \n。

4.網絡流
Flume支持以下機制從常用日誌流類型中讀取數據

Avro
Thrift
Syslog
Netcat

5.設置多個agent流

爲了跨多個agent或者source，先前agent的sink和source需要是avro類型，sink指向source的主機名（ip）和端口。

6.合併
日誌收集中非常常見的是大量日誌生成客戶端將數據發送到連接存儲子系統的少數消費者agent.
從數百個web服務器收集的日誌發送給寫入HDFS集羣的十幾個agent。

這可以通過使用avro的sink配置多個第一層agent在Flume中實現，所有這些agent都指向單個agent的avro source(同樣，這裏也可以使用thrift source/sink/client)。第二層agent 的source將接收的時間合併到單個channel中。該channel由sink消費到存儲目的。

7.多路複用流程

Flume支持將event流多路複用到一個或多個目的地。這是通過定義可以複製或選擇性的將event路由到一個或者多個channel的流複用來實現的。

上圖的例子顯示來自Agent foo的流程擴展到三個不同的通道。對於多路複用的情況，當事件的屬性與預配置的值匹配時，事件將被傳遞到可用的通道子集。例如：
如果一個txnType event設置爲消費者consumer，那麼他應該轉到channel1和channel3, 如果她是vendors生產者，那麼他應該轉到channel2，否則到channel3.

8.定義流程

要在單個agent中定義流，需要通過通道連接source 和 sink，你需要列出給定的agent的source，sink 和 channel，然後將source和sink指向channel。source可以指向多個channel，但sink實例只能指定一個channel。格式如下：

# list the sources, sinks and channels for the agent
<Agent>.sources = <Source> 
<Agent>.sinks = <Sink> 
<Agent>.channels = <Channel1> <Channel2>
# set channel for source
<Agent>.sources.<Source>.channels = <Channel1> <Channel2> ...
# set channel for sink
<Agent>.sinks.<Sink>.channel = <Channel1>

例如，名爲foo的Agent正在從外部avro client讀取數據並通過內存channel將其發送到HDFS。配置文件weblog.config如下所示：

# list the sources, sinks and channels for the agent
agent_foo.sources = avro-appserver-src-1 
agent_foo.sinks = hdfs-sink-1 
agent_foo.channels = mem-channel-1
# set channel for source
agent_foo.sources.avro-appserver-src-1.channels = mem-channel-1
# set channel for sink
agent_foo.sinks.hdfs-sink-1.channel = mem-channel-1

該event從avro-AppSrv-source流向hdfs-Cluster1-sink，通過內存mem-channel-1。當使用webblog。config作爲其配置文件啓動代理時，它將實例化該流程。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Flume學習筆記 --- Flume數據抽取

linux安裝cuda和cudnn

測試人員都是畫畫大神，讓我看看誰還不會用代碼圖？

Object.values()對象遍歷

我拍了拍Redis，被移出了羣聊···

網絡現代化通向雲原生應用的高速公路

面試官：說說你對序列化的理解

我宣佈，這是我找到的史上AI最全論文體系！

找出給定數組中兩個元素和剛好等於給定目標值的最小下標，時間複雜度要求O(n)

LeetCode --- 762. Prime Number of Set Bits in Binary Representation 解題報告

Python 實戰深拷貝與淺拷貝

LeetCode --- 748. Shortest Completing Word 解題報告

數據倉庫學習筆記 --- 緩慢變化維

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結