logstash常見數據清洗配置

原創

开飞机的舒克贝塔

2020-07-07 17:40

ogstash通過插件的形式來配置input，filter，output，在消費數據後，如果需要對數據做處理,需要用到filter的很多功能。最近使用logstash傳遞kafka數據到es時，瞭解了一些logstash處理數據的方式，以下logstash的config做個簡單分享:

input {
kafka {
bootstrap_servers => "xxx.xxx.xxx.xx:9092,yyy.yyy.yyy.yy:9092," ##kafka地址，可以是集羣
client_id => "test_log_consume"
auto_offset_reset => "earliest" ##從最新的偏移量開始消費
topics => ["topic_test"] ## 數組類型，可配置多個topic
decorate_events => true #此屬性會將當前topic、offset、group、partition等信息也帶到message中
consumer_threads => 1 ## 指定消費的線程數，消費單個topic的話，最好和該topic的partition個數一直或小於這個數
codec => "json" ## 獲取到kafka的數據後，如果傳入的是json格式，這裏可以做一個json decode解析
}
}

filter {
mutate {
add_field => { ## 添加字段
"offset" => "%{[@metadata][kafka][offset]}" ## 使用元數據信息添加字段
   "patition_id" => "%{[@metadata][kafka][partition]}"
   "add_field_1" => "test_add_field" ## 直接寫某些數據添加字段
}
rename => {
   "old_key_name_1" => "new_key_name_1" ## 修改字段名字
   "old_key_name_2" => "new_key_name_2"
   }
}
date {
match => [ "test_time", "yyyy-MM-dd", "UNIX"] ## 將字段名爲 test_time 格式爲 yyyy-MM-dd 的字段轉換爲unix時間戳，並賦回字段(target可以給其它有或沒有的字段)
   target => "test_time"
}
prune { ## 指定要輸出的字段，沒有指定字段的，不輸出那個字段
whitelist_names => [ "offset", "add_field_1", "new_key_name_1", "test"...]
}
}

output {
stdout{
codec => "rubydebug" ##rubydebug ##輸出到屏幕上
}
}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

日誌分析系統ELK安裝（單機）

下載ElasticSearch、Logstash、Kibana安裝包。百度雲地址：鏈接：https://pan.baidu.com/s/104Qae0x5epXJO39iQzaoNw 提取碼：2cl5 ElK + Filebe

2020-07-08 10:31:09

ELK-filbeate收集tomcat日誌

filebeat作爲代理安裝在服務器上,監視指定的日誌文件或位置,收集日誌事件,並將他們轉發到logstash,elasticsearch,kafka等 input 我們要採集的日誌文件路徑, 收割機 harvester 監聽文件

2020-07-07 22:50:11

ELK filter 查詢

filter 查詢不計算相關性，同時可以 cache ,因此 filter 速度要快於 query. POST /lib4/items/_bulk {"index":{"_id":1}} {"price":40,"itemID":"ID1

2020-07-07 16:07:22

filebeat+redis+elk日誌分析搭建

filebeat: 10.0.0.41 redis: 10.0.0.42 logstash: 10.0.0.43 elasticsearch: 10.0.0.44 kibana: 10.0.0.45 架構如下: 一、filebe

一纸情书ベ

2020-07-07 13:29:53

elk消費kafka數據延遲過大的問題

elk消費kafka數據延遲過大的問題 1.問題現象表述：當前elk作爲日誌系統消費kafka日誌數據有很大的延遲，即elk的消費kafka中日誌的速度（200條/s）遠遠低於maplearning生產日誌的速度（平均3000

2020-07-07 00:27:52

spark監控streamingListener使用與監控告警

Spark-steaming監控設計與驗證方案 created by fangchangtan | 2020/2/24 原創不易，謝絕白嫖，好的話就點

2020-07-07 00:27:52

安裝elasticalert配置驗證文檔

docker 安裝、配置、驗證ElasticAlert created by fangchangtan | 2020/2/24 1.elastalert的場景用途 elastalert組件作爲elk中日

2020-07-07 00:27:52

ElasticSearch CPU和內存佔用高的優化記錄出現GC

公司最近使用ElasticSearch作爲數據報表彙總引擎.上線三個月累計數據800萬,但是今天突然大面積出現查詢超時,上服務器查看服務運行情況,發現cpu使用率高達300% mem 使用率也到了90%,下面記錄了整個排

2020-07-06 23:17:59

ElasticSearch6.3.2 中的JVM性能調優

前一段時間被人問了個問題：在使用ES的過程中有沒有做過什麼JVM調優措施？在我搭建ES集羣過程中，參照important-settings官方文檔來的，並沒有對JVM參數做過多的調整。但談到JVM配置參數，少不了操作系統層面上的一些

2020-07-06 23:17:59

elasticsearch實現冷熱數據分離

目錄(?)[-] es架構各節點的es配置如何實現某索引數據寫到指定的node根據節點tag即可如何實現數據從hot節點遷移到老的cold節點 cold節點數據保留1個月優化點 logstash測試關於es的index te

2020-07-06 23:17:59

elasticsearch 的日誌gc

[2018-06-30T17:57:23,848][WARN ][o.e.m.j.JvmGcMonitorService] [qoo--eS] [gc][228384] overhead, spent [2.2s] collec

2020-07-06 23:17:59

Elasticsearch集羣模式知多少

01序言 Elasticsearch經過多年發展，集羣模式已經非常成熟，涵蓋的技術點非常多，對於使用者來說，掌握並熟練運用至關重要。那麼Elasticsearch有多少種集羣模式呢？當前適合哪種集羣模式？本文不涉及實戰操作，僅限集羣原理範

2020-07-06 23:17:59

Elasticsearch 7.7部署

　Elasticsearch(簡稱:ES)是一個開源的分佈式搜索引擎, Elasticsearch 還是一個分佈式文檔數據庫.並提供了大量數據的存儲功能快速的搜索與分析功能. 　　起源於 Lucene, 基於 Java 語言開發的搜索引擎

2020-07-06 23:17:59

一文掌握並應用Elasticsearch中的GC實現垃圾日誌處理

如果你關注過 Elasticsearch 的日誌，可能會看到如下類似的內容： [2018-06-30T17:57:23,848][WARN ][o.e.m.j.JvmGcMonitorService] [qoo--eS] [gc][22

2020-07-06 23:17:59

Docker 部署 Elasticsearch - 權限認證

Elasticsearch 認證插件選擇這裏選擇一個免費的：社區插件 Readonly REST 下載地址：https://readonlyrest.com/download/ 1、進入網站後選擇插件類型、elastic版本、郵箱

2020-07-06 23:17:59

24小時熱門文章

最新文章

最新評論文章