logstash常见数据清洗配置

ogstash通过插件的形式来配置input，filter，output，在消费数据后，如果需要对数据做处理,需要用到filter的很多功能。最近使用logstash传递kafka数据到es时，了解了一些logstash处理数据的方式，以下logstash的config做个简单分享:

input {
kafka {
bootstrap_servers => "xxx.xxx.xxx.xx:9092,yyy.yyy.yyy.yy:9092," ##kafka地址，可以是集群
client_id => "test_log_consume"
auto_offset_reset => "earliest" ##从最新的偏移量开始消费
topics => ["topic_test"] ## 数组类型，可配置多个topic
decorate_events => true #此属性会将当前topic、offset、group、partition等信息也带到message中
consumer_threads => 1 ## 指定消费的线程数，消费单个topic的话，最好和该topic的partition个数一直或小于这个数
codec => "json" ## 获取到kafka的数据后，如果传入的是json格式，这里可以做一个json decode解析
}
}

filter {
mutate {
add_field => { ## 添加字段
"offset" => "%{[@metadata][kafka][offset]}" ## 使用元数据信息添加字段
   "patition_id" => "%{[@metadata][kafka][partition]}"
   "add_field_1" => "test_add_field" ## 直接写某些数据添加字段
}
rename => {
   "old_key_name_1" => "new_key_name_1" ## 修改字段名字
   "old_key_name_2" => "new_key_name_2"
   }
}
date {
match => [ "test_time", "yyyy-MM-dd", "UNIX"] ## 将字段名为 test_time 格式为 yyyy-MM-dd 的字段转换为unix时间戳，并赋回字段(target可以给其它有或没有的字段)
   target => "test_time"
}
prune { ## 指定要输出的字段，没有指定字段的，不输出那个字段
whitelist_names => [ "offset", "add_field_1", "new_key_name_1", "test"...]
}
}

output {
stdout{
codec => "rubydebug" ##rubydebug ##输出到屏幕上
}
}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

logstash常见数据清洗配置

PDManer [元数建模]-v4.9.0 发布：一款简单好用的数据库建模平台

使用neovim打造go ide(支持代码跳转, 代码补全, 实时语法检查)

sql求连续值问题

cs01 CSS Syntax

挑战程序设计竞赛 2.3章习题 poj 3046 Ant Counting

[MASM拾遗]Offset伪指令

h30 HTML Layout Elements

了解显卡

一款基于C#开发的通讯调试工具（支持Modbus RTU、MQTT调试）

Linux/Golang/glibC系统调用

logstash常見數據清洗配置

Eclipse錯誤：找不到或無法加載主類解決辦法

啓動ArcGIS Serer 端口衝突問題解決方法

Oracle查詢某一列的重複部分

Oracle去除重複數據的方法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結