flume 简单学习

原創

2021-06-25 12:59

hive完事了今天辅助系统三个组件数据采集flume 任务调度 oozie 数据导出 sqoop

除了hdfs+mapreduce+hive组成分析系统的核心之外，还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统，

任务调度 oozie Azkaban 工具对比

最终拿到数据展现出来

一.flume （数据采集）

分布式集群形式

Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。

1.运行机制

核心组件：agent (系统由agent连接组成)（数据传递员，内部有三个组件）

①Source：采集源，用于跟数据源对接，以获取数据

②Sink：下沉地，采集数据的传送目的，用于往下一级agent传递数据或者往最终存储系统传递数据

③Channel：angent内部的数据传输通道，用于从source将数据传递到sink

系统结构图（多个）

2.Flume安装部署（已有Hadoop，因为采集的数据要存在hdfs中）（执行时用户名需与Hadoop用户名相同）

3.解压出来输入：tar -zxvf apache-flume-1.6.0-bin.tar.gz -C /export/servers/（解压完后先去下面安装uginx因为我们需要uginx的环境）

4修改环境变量（根据自己的环境变量就行）

5.测试环境是否正常

①先在flume的conf目录下新建一个文件 vi netcat-logger.conf

# 从网络端口接收数据，下沉到logger
# 采集配置文件，netcat-logger.conf
#其中该agent名为a1，sources名为r1，sinks名为k1，channels名为c1
# example.conf: A single-node Flume configuration
# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444

# Describe the sink
a1.sinks.k1.type = logger

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

②启动agent采集数据（去这个路径下，/export/servers/apache-flume-1.6.0-bin/bin/，这个路径下才有flume-ng这个文件）

bin/flume-ng agent --conf conf/ --conf-file conf/netcat-logger.conf --name a1 -Dflume.root.logger=INFO,console

有这个进程

③输入telnet进行连接（什么！？你说你的电脑显示不是内部和外部命令，这么做：控制面板-------->程序和功能--------------->点击左上角打开 turn windows feaures on or off选项，在新窗口中勾选telnet Client即可）

（linux下没有的话就去找教程吧。。。或者留言问我要三个rpm包解出来也行）

④配置一下flume的home etc/profile 之后记得source一下这个文件夹

输入命令！开始监听！还是那个监听命令：flume-ng agent -c conf -f netcat-logger.conf -n a1 -Dflum,console

看效果

二.Nginx(负载均衡，反向代理)（用flume采集nginx日志）

反向代理：网上发请求给代理服务器，代理服务器接到请求，转发给内部指定服务器，同时将结果返回网上，此时代理服务器对外表现为一台服务器。

负载均衡：大家伙一起干活，减轻每台服务器的任务

1.安装nginx

输入：tar -zxvf nginx-1.8.1.tar.gz -C /export/servers

2.检查安装环境输入：./configure --prefix=/export/servers/nginx （我的虚拟机连不上外网，下载不了包，所以没办法演示了）

（如果出现缺包报错 ./configure: error: C compiler cc is not found 下载对应的包就行了yum -y install gcc pcre-devel openssl openssl-devel）

可以查看一下进程情况

nginx安装不成功？上网去查，从yum上搬东西就行。yum配置不好？找不到解决方案？直接用这个吧，别的大佬配置好的，把/etc/yum.repos.d/的文件备份删除，换成这些配置文件 password:0muz

小案例

案例一：监控文件夹

首先你要有/home/hadoop/flumeSpool/这个文件夹，因为哦我们监控的就是它

输入：flume-ng agent -c ./conf -f ./conf/spool-logger.conf -n a1 -Dflume.root.logger=info,console

接下来往那个文件夹下放文件随便拷贝一个文件过去发现被监控到了

案例二采集目录到HDFS

现在Hadoop下建立一个文件夹 /home/hadoop/logs 目的是把

再建立一个配置文件

开始监控

我们接下来往那个文件夹里放文件

发现监听到了（注意这里只能监听到文件的变化，如果放入文件夹，不会监听到）

在hadoop上也能看到

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

《期货-市场技术分析》读书笔记

第二本技術分析書籍，《期貨-市場分析技術》：書中的很多內容，如趨勢、趨勢線、阻力、支撐等，也象《日本蠟燭圖》一樣，沒有邏輯推理過程，沒有數據驗證。但是我認可其確實有一定的心理暗示作用。因爲我在聽很多技術分析大 V 的視頻時，他們中的大部

2024-04-29 14:32:19

《日本蜡烛图》读书笔记 & 技术分析回测

最近想做一些現金流的策略，所以決定把技術分析研究得更加深入一些。朋友推薦了幾本書：《日本蠟燭圖》、《期貨市場技術分析》、《纏論》，我想挨個把它們看完，同步也嘗試做一些量化技術策略。日本蠟燭圖下面這本書就是上面所說的第一本：其實，我是

2024-04-29 14:32:19

pytest lastfailed原理

相信很多使用pytest的，都知道pytest有運行上次失敗用例的參數，如下： --lf, --last-failed rerun only the tests that failed at the last run (or all

2024-04-29 14:24:29

一个开源轻量级的C#代码格式化工具（支持VS和VS Code）

前言 C#代碼格式化工具除了ReSharper和CodeMaid，還有一款由.NET開源、免費（MIT License）、輕量級的C#語言代碼格式化工具：CSharpier。工具介紹 CSharpier是一款開源、免費、輕量級的C#語言代

2024-04-29 14:22:08

顶级 Javaer 都在用的 20 个类库，真香！

優秀且經驗豐富的Java開發人員的特徵之一是對API的廣泛瞭解，包括JDK和第三方庫。我花了很多時間來學習API，尤其是在閱讀了Effective Java 3rd Edition之後，Joshua Bloch建議在Java 3rd E

2024-04-29 14:21:48

Linux内核之SPI协议

SPI(Serial Peripheral Interface，串行外設接口)是一種同步串行的行業標準，但是並沒有像I2C那樣有標準文檔，它還有主從、可片選的特性。圖源自Serial Peripheral Interface-wikip

藍天上的雲℡

2024-04-29 14:21:38

mongodb处理json数据很好

mysql只適合處理簡單的一級數據表複雜嵌套的json用mongodb mongodb實現: 插入: //切記數字不要帶引號,帶引號就字符串了,就無法比較大小了. //每一個對象都用{}包起來.這樣查詢時候方便多了.雖然插入寫起

張博的博客

2024-04-29 14:20:08

【Nano Framework ESP32篇】使用 LCD 屏幕

在開始主題之前，先介紹一個刷固件工具。這個工具在 idf 中是集成的，不過，樂鑫也單獨發佈了這個工具—— esptool。下載鏈接：Releases · espressif/esptool · GitHub。這貨是用 Python 寫的，只

2024-04-29 14:16:57

双token+redis（token无感刷新）

爲什麼要使用雙token+redis呢？單token+redis+自動續期不行嗎？單token+redis的缺點：可能會出現用戶正在操作的時候，token過期了，讓用戶重新登錄的情況。單token+redis+自動續期的缺點：單to

2024-04-29 14:15:37

cookie,session,token的区别

cookie,session,token它們本質上不是同一個東西。但是都跟維持狀態信息有關係。什麼是狀態信息呢？我來用一個登錄來個大家講解。如果我們登錄以後，希望後續的所有的頁面都維持登錄的狀態，那我們就需要用剛剛講到的cookie，

2024-04-29 14:15:37

Asp .Net Core 系列：国际化多语言配置

目錄概述術語本地化器IStringLocalizer在服務類中使用本地化IStringLocalizerFactoryIHtmlLocalizerIViewLocalizer資源文件區域性回退配置 CultureProvider內置的 Re

2024-04-29 14:14:57

编译原理PL0语法分析实验1

編譯原理PL0語法分析實驗1 1，待分析的簡單語言的詞法相同點：都是分析種別碼不同點：詞法分析器分析的是字符串中的單詞的種別碼（單詞）語法分析器分析的是字符串的文法是否正確（句子）待分析的簡單語言的語法 BNF：（1）<程序>::=begi

2024-04-29 14:13:26

google浏览器插件开发

項目結構在開發Chrome插件時，以下幾個文件的作用如下： manifest.json：這是Chrome插件的清單文件，用於配置插件的基本信息、權限、頁面跳轉等。其中包括插件的名稱、版本號、圖標、後臺腳本、瀏覽器動作等信息。 ba

2024-04-29 14:12:46

element表单中选择 el-date-picker 选择后没反应

折騰一早上沒有用直到百度到了 https://blog.csdn.net/KeepReal666/article/details/134471038 解決辦法：直接加上@input="$forceUpdate()"即可。

2024-04-29 14:09:56

什么是SQL 语句中相关子查询与非相关子查询

1.什麼是SQL子查詢要理解相關子查詢和非相關子查詢，我們得首先理解什麼是子查詢，子查詢是指在一個查詢語句中嵌套的另一個查詢語句。子查詢可以嵌套在其他查詢語句中，如 SELECT、INSERT、UPDATE、DELETE 等，它作爲一個

2024-04-29 14:06:35

24小時熱門文章

最新文章

最新評論文章