logstash簡介及架構

原創

2020-07-05 09:58

1、logstash介紹

數據收集處理引擎
ETL工具

2、logstash架構簡介

Logstash Event是一個java object，它對外暴露了獲取內部字段以及修改內部字段值的一些api。

下面舉例講解：

stdin：標準輸入

codec是line，這個codec的作用就是按照每一行切割數據，就是說把每一行都轉換成logstash event

stdout：標準輸出

codec是json，這個codec的作用就是把每一個logstash event轉換成json的對象輸出。

line codec decode是按照換行符\n切割的。所以一行原始數據被分成了兩個event。

所以，在原始數據和event之間不是一對一的關係。

event經過json codec encode後就把每一個logstash event輸出成 json object。

3、測試

可以看到上圖的數據有一個message爲空的數據，是因爲在bar的後面又換了一行。

4、詳細講解logstash的架構

下圖是logstash6.x的架構

input是可以有多個的，每個input都有自己的codec，箭頭代表數據流向。

數據會經過Queue，Queue會把流入的數據分發到不同的pipeline中。

每一個pipeline有Batcher、filter、output。

Batcher的作用是批量的從Queue中取數據。Batcher是可以配置的，比如一次取一百個數據。

看上圖可知我有三個pipeline。

5、Life of an Event

這裏介紹logstash Event的生命歷程。

web.log爲我們的配置文件

隨着時間的推移，Batcher會收集越來越多的數據，當達到了處理數據的條件之後（Batcher會有兩種條件，數目或時間，數目達到了設定的閾值或者是時間到了），Batcher就會把數據發送到filter，在filter中對每一條logstash Event進行相關的處理。

最後output就會把數據輸出到你指定的輸出。

那麼，輸出之後，會把處理的ACK發送給Queue，代表着我剛纔處理了哪些event。

6、Queue的分類

logstash有兩個Queue，一個是In Memory在內存中的Queue，這個Queue是固定大小的，是沒法通過配置文件來修改的。壞處就是下圖所示。

爲了解決這個問題，推出了持久化Queue就是Persistent Queue In Disk，這個就是基於磁盤對處理數據進行一個記錄。

7、Persistent Queue In Disk

Data從Input進來，

Data到PQ中。
PQ會把這個數據在磁盤中備份一份。
PQ告訴Input說這條數據我已經收到了。前提是Input要支持這種機制，有了這種機制才能感知目前logstash的這種處理能力。

接下來藍色部分，

數據就從PQ到filter output
output把事件處理之後就會發送ACK到PQ
PQ收到了這個ACK之後，就會把磁盤上的數據刪除掉

這樣就得知，即使發生了宕機，我的數據還是在disk中有的，只需要重啓logstash把disk中的數據重新消費一次就解決了。

8、Memory Queue與PQ的性能

可以看到性能的下降不是很嚴重，估計是在5%以內，如果沒有特殊需求一般建議把logstash的PQ打開。

9、打開PQ

queue.max_bytes默認是1GB，開大一點後，Queue能存儲的數據也就多了一點。

還有一些：

path.queue PQ存到磁盤的哪個位置。

queue.page_capacity 控制消息隊列每一個文件的大小。

queue.checkpoint.writes 提升容災能力，如果是1 表示每寫一個數據都去做盤，頂多也就會丟失一條數據。

10、logstash中線程的相關情況

調優的時候主要就是調整 Pipeline Workder Thread數。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

如何保障服務的高可用：提升可觀測性

保障服務的高可用，必不可少的措施，就是需要對服務資源使用度量情況、運行異常、邏輯錯誤、請求鏈路、等各項度量指標、日誌和鏈路瞭如指掌，並且通過對服務的實時監控和分析，配置指標預警值，對異常進行告警，通知到相關負責人，通過可觀測性的提升，預防和

2024-02-26 00:41:47

Java日誌框架學習

前言 Java開發者對於日誌框架，想必都不陌生。我自己使用過的有Log4j、logback。作爲Java開發者，應該都遇到因日誌包衝突導致的異常問題，排查過程也或多或少知曉 Java日誌接口包、橋接包、產品包的混亂關係，本篇目的是爲了

2024-02-22 23:52:29

阿里雲消息隊列 Kafka 生態集成的實踐與探索

消息隊列 Kafka 簡介 Apache Kafka是一個分佈式流平臺，作爲互聯網領域不可或缺的消息組件，在全球獲得了廣泛的應用。在使用過程中，Kafka一般被作爲消息流轉的核心樞紐，上下游系統通過Kafka實現異步，削峯填谷。在大數據處

2023-03-01 00:13:05

微服務日誌調用鏈事件(request-id)，從nginx到elk

Nginx生成request-id 每次請求通過nginx時，生成一個request-id,添加到請求頭上。通過nginx內置的 $request_id 實現 proxy_set_header X-Request-Id $reque

2022-04-30 13:40:44

es使用記錄

此文章要對ES有一些基礎應用背景：官網重建，需要全網站檢索所有的文章、服務、附件等；數據庫設計上，由於業務隔離的原因，數據被分散在各個表中技術選型：在開發週期限制條件下，準備了兩個方案： 1、查詢直

2022-04-30 12:55:14

logstash將mysql數據映射到es過程中的date數據格式問題

問題現象： {"index"=>{"_index"=>"product", "_type"=>"_doc", "_id"=>"146", "status"=>400, "error"=>{"type"=>"mapper_parsing_e

2022-04-30 11:49:21

Spring中如何優雅地配置日誌

背景 spring對logback提供了良好的支持，大部分情況下，不需要自定義logback配置文件而很多項目對logback在spring中的使用，很多都做了不必要的定製：通過logback.xml自定義配置：這種方式繞過了spri

2022-04-30 11:45:21

Rainbond通過插件整合ELK/EFK，實現日誌收集

前言 ELK 是三個開源項目的首字母縮寫：Elasticsearch、Logstash 和 Kibana。但後來出現的 FileBeat 可以完全替代 Logstash的數據收集功能，也比較輕量級。本文將介紹 EFK: Elasticsea

2021-12-27 21:28:31

logstash學習

目前公司微商城已經上了k8s，但是日誌查看不是很方便，感覺沒有之前在虛擬機上（vm）上查看日誌方便。因爲之前的日誌是按照日期，進行壓縮打包的，但是在k8s中，查看日誌就沒有那麼方便，也不用用grep這些管道來方便查詢。 ###安裝 cd

2021-12-25 21:37:19

elasticsearch添加賬號和權限

教程：安全入門 Tutorial: Getting started with security 準備工作：常用軟件-ELKF+kafka集羣安裝和配置Elasticsearch, Kibana, Logstash. 停止logstas

我的社會主義夢

2021-12-25 21:22:14

ELK+Filebeat 安裝配置入門

https://www.elastic.co 上，elasticsearch，logstash (filebeat)，kibana 都有各自的教程，基本照做就可以跑通。但只是初步跑起來，如果要都作爲服務運行，需要使用 rpm

框架淘金者

2021-12-25 21:12:02

Kibana7.6.2設置elasticsearch索引過期時間，到期自動刪除

一、背景 ELK系統裏面存放了大量日誌索引，只需要保留15天的日誌索引，希望到期自動刪除對應的索引; 本文的解決方案是給索引添加生命週期策略，不需要手動設置定時器去調用api刪除；二、設置索引生命週期策略(ILM) 創建一個新的策略

2021-12-25 21:12:02

Apache Log4j 2.15.0 已發佈，DolphinScheduler 受漏洞影響較小

近期，Apache 開源日誌框架 Log4j2 被曝嚴重漏洞。經技術人員排查，Apache DolphinScheduler 1.3.1-1.3.9 版本所依賴的組件中包含 log4j-core-2.11.2.jar，因此會受到一定程度影響

2021-12-25 21:10:16

微服務架構複雜嗎？看完這篇你就明白了！

點擊上方 " JAVA開發大本營 "關注, 置頂或星標一起學習每天晚上10點00分, 我們不見不散導讀本文將介紹微服務架構和相關的組件，介

程序猿無非那些事

2021-12-25 21:09:20

Beats 作爲日誌蒐集器相關

Filebeat：ELK 協議棧的新成員，一個輕量級開源日誌文件數據蒐集器，基於 Logstash-Forwarder 源代碼開發，是對它的替代。在需要採集日誌數據的 server 上安裝 Filebeat，並指定日誌目錄或日誌文件後，F

2021-08-30 21:21:25

24小時熱門文章

最新文章

最新評論文章