logstash input output filter 插件總結

Logstash學習記錄
官方文檔logstash2.3 document:

https://www.elastic.co/guide/en/logstash/current/index.html

一:什麼是Logstash
1. logstash 是什麼?
Logstash 是有管道輸送能力的開源數據收集引擎。它可以動態地從分散的數據源收集數據,並且標準化數據輸送到你選擇的目的地。它是一款日誌而不僅限於日誌的蒐集處理框架,將分散多樣的數據蒐集自定義處理並輸出到指定位置。

2.工作原理
Logstash使用管道方式進行日誌的蒐集處理和輸出。有點類似*NIX系統的管道命令 xxx | ccc | ddd,xxx執行完了會執行ccc,然後執行ddd。

在logstash中,包括了三個階段:

  輸入input --> 處理filter(不是必須的) --> 輸出output

 

每個階段都由很多的插件配合工作,比如file、elasticsearch、redis等等。

每個階段也可以指定多種方式,比如輸出既可以輸出到elasticsearch中,也可以指定到stdout在控制檯打印。

由於這種插件式的組織方式,使得logstash變得易於擴展和定製。

3.運行logstash
Logstash運行僅僅依賴java運行環境(jre)

若logstash的安裝目錄在${logstashHome},進入安裝目錄可在控制檯輸入命令:bin/logstash -e 'input { stdin { } } output { stdout {} }'

我們現在可以在命令行下輸入一些字符,然後我們將看到logstash的輸出內容:

hello world

2013-11-21T01:22:14.405+0000 0.0.0.0 hello world

使用-e參數在命令行中指定配置是很一種方式,不過如果需要配置更多設置則需要很長的內容。這種情況,我們首先創建一個配置文件,並且指定logstash使用這個配置文件。

標準配置爲文件含有input{} filter{}和output{}三部分,如配置一個配置文件sampl.conf

input {

    file {

        path => "/path/to/logstash-tutorial.log"

        start_position => beginning

        ignore_older => 0

    }}

   filter {

    grok {

        match => { "message" => "%{COMBINEDAPACHELOG}"}

    }}

   output{

       elasticsearch {hosts=>localhost:9020}

 

        Stdout{Codec=>”rubydebug” }

}

 

/path/to/是配置文件在你的文件系統的具體位置

logstash-tutorial.log爲Apache日誌內容如下:

83.149.9.216 - - [04/Jan/2015:05:13:42 +0000] "GET /presentations/logstash-monitorama-2013/images/kibana-search.png

HTTP/1.1" 200 203023 "http://semicomplete.com/presentations/logstash-monitorama-2013/" "Mozilla/5.0 (Macintosh; Intel

Mac OS X 10_9_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.77 Safari/537.36"

 

在命令行輸入:

bin/logstash -f first-pipeline.conf --configtest查證配置文件有無錯誤

然後運行logstash調用配置文件

bin/logstash -f first-pipeline.conf

 

在命令行有輸出JSON格式:

{"clientip" : "83.149.9.216",

"ident" : ,

"auth" : ,

"timestamp" : "04/Jan/2015:05:13:42 +0000",

"verb" : "GET",

"request" :"/presentations/logstash-monitorama-2013/images/kibana-search.png",

"httpversion" : "HTTP/1.1",

"response" : "200",

"bytes" : "203023",

"referrer" :"http://semicomplete.com/presentations/logstash-monitorama-2013/",

"agent" : "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.77 Safari/537.36"}

 

命令行參數

Logstash 提供了一個 shell 腳本叫 logstash 方便快速運行。它支持一下參數:

 -e

意即執行。我們在 "Hello World" 的時候已經用過這個參數了。事實上你可以不寫任何具體配置,直接運行 bin/logstash -e '' 達到相同效果。這個參數的默認值是下面這樣:

input {

    stdin { }

}

output {

    stdout { }

}

--config 或 -f

意即文件。真實運用中,我們會寫很長的配置,甚至可能超過 shell 所能支持的 1024 個字符長度。所以我們必把配置固化到文件裏,然後通過 bin/logstash -f agent.conf 這樣的形式來運行。

此外,logstash 還提供一個方便我們規劃和書寫配置的小功能。你可以直接用 bin/logstash -f /etc/logstash.d/ 來運行。logstash 會自動讀取 /etc/logstash.d/ 目錄下所有的文本文件,然後在自己內存裏拼接成一個完整的大配置文件,再去執行。

--configtest 或 -t

意即測試。用來測試 Logstash 讀取到的配置文件語法是否能正常解析。Logstash 配置語法是用 grammar.treetop 定義的。尤其是使用了上一條提到的讀取目錄方式的讀者,尤其要提前測試。

--log 或 -l

意即日誌。Logstash 默認輸出日誌到標準錯誤。生產環境下你可以通過 bin/logstash -l logs/logstash.log 命令來統一存儲日誌。

 --filterworkers 或 -w

意即工作線程。Logstash 會運行多個線程。你可以用 bin/logstash -w 5 這樣的方式強制 Logstash 爲過濾插件運行 5 個線程。

注意:Logstash目前還不支持輸入插件的多線程。而輸出插件的多線程需要在配置內部設置,這個命令行參數只是用來設置過濾插件的!

提示:Logstash 目前不支持對過濾器線程的監測管理。如果 filterworker 掛掉,Logstash 會處於一個無 filter 的僵死狀態。這種情況在使用 filter/ruby 自己寫代碼時非常需要注意,很容易碰上 NoMethodError: undefined method '*' for nil:NilClass 錯誤。需要妥善處理,提前判斷。

 --pluginpath 或 -P

可以寫自己的插件,然後用 bin/logstash --pluginpath /path/to/own/plugins 加載它們。

--verbose

輸出一定的調試日誌。

小貼士:如果你使用的 Logstash 版本低於 1.3.0,你只能用 bin/logstash -v 來代替。

 --debug

輸出更多的調試日誌。

小貼士:如果你使用的 Logstash 版本低於 1.3.0,你只能用 bin/logstash -vv 來代替

CTRL-D 退出運行中的logstashshell

 

 

二:配置logstash
創建配置文件,在配置文件的各個部分(input,filter,output)制定並配置你要使用的插件

 

1. 數據類型
Logstash 支持少量的數據值類型:

 bool

debug => true

 string

host => "hostname"

 number

port => 514

 array

match => ["datetime", "UNIX", "ISO8601"]

 hash

options => {

    key1 => "value1",

    key2 => "value2"

}

ü 

2事件依賴配置
1. Filed references ,sprintf format, conditionals 作用在filter和output階段

Filed reference 是filed嵌套,如下面事件

{ "agent": "Mozilla/5.0 (compatible; MSIE 9.0)",

  "ip": "192.168.24.44", 

  "request": "/index.html" 

  "response": { 

             "status": 200,

             "bytes": 52353 },

  "ua": { 

          "os": "Windows 7" } 

}

你可以定義[ua][os]來引用os字段

Sprintf format

  (1) 根據appache日誌狀態碼計數

output { 

         statsd { 

              increment => "apache.%{[response][status]}" 

          } }

 (2)output { file { path => "/var/log/%{type}.%{+yyyy.MM.dd.HH}" } }

Conditional

      在某種特定條件下過濾,輸出event(if ,else if,else 可以嵌套)

comparison operators比較操作:

    equality: ==, !=, <, >, <=, >=

    regexp: =~, !~ (checks a pattern on the right against a string value on the left)

    inclusion: in, not in

boolean operators布爾操作:

    and, or, nand, xor

一元操作:

    !

僅讓grok成功的字段索引到elasticsearch中

   output { 

     if "_grokparsefailure" not in [tags] { 

              elasticsearch { ... } } 

}

 

2. @matedata字段

   在output階段不作爲event的一部分輸出,可以很好的作爲條件判斷,或是利用字段引用(filed reference)

和sprintf format 來擴展或是創建字段

如果要顯示輸出@matedata可設置stdout { codec => rubydebug { metadata => true } }

Similarly, you can use conditionals to direct events to particular outputs. For example, you could:

l alert nagios of any apache events with status 5xx

l record any 4xx status to Elasticsearch

l record all status code hits via statsd

To tell nagios about any http event that has a 5xx status code, you first need to check the value of the typefield. If it’s apache, then you can check to see if the status field contains a 5xx error. If it is, send it to nagios. If it isn’t a 5xx error, check to see if the status field contains a 4xx error. If so, send it to Elasticsearch. Finally, send all apache status codes to statsd no matter what the status field contains:

output {

  if [type] == "apache" {

    if [status] =~ /^5\d\d/ {

      nagios { ...  }

    } else if [status] =~ /^4\d\d/ {

      elasticsearch { ... }

    }

    statsd { increment => "apache.%{status}" }

  }}

 

4.input plugins
l Input-file-plugin

Path=>”/var/log/*” 作爲輸入的文件的完全路徑

Excude =>”*.gz” 不用匹配的文件,非=完全路徑

ignore_older => 86400 (s)時間間隔最後被修改的被忽略

max_open_files => number

add_field=> {} hash值, eg:add_field => {“addfield”=>”content”}

close =>”plain”

delimiter=> “\n” 默認值,定界符

discover_interval => 15(s) 每隔多久在文件路徑模式下發現新的文件  (interval  時間間隔)

sincedb_path 默認$HOME/.sincedb ,將被寫入硬盤的sincedb_database文件的路徑,默認是匹配$HOME/.sincedb* 的路徑

sincedb_write_interval =>15(s)多久將被監控日誌文件的當前位置寫一個since database 一次

start_position => “end” 還可”beginning” 從哪開始讀取文件,僅當文件是新建的或是從前沒見過的,否則失效

 

start_interval => 設置多久看一次文件是否修改,有新的日誌行,

tags =>”arrary ” 添加時間tag 可任意多的

type  => “string ”爲input 控制的所有事件添加一個type 的字段, 在filter操作會用到該字段

 

l Input-stdin-plugin

是 logstash 裏最簡單和基礎的插件

l Input-jdbc-plugin

schedule:設置監聽間隔。可以設置每隔多久監聽一次什麼的。具體參考官方文

statement_filepath: 執行的sql 文件路徑+名稱

數據庫的表的一條記錄爲一個事件

下面配置文件監控的是遠程數據庫,注意的是,MySQL數據庫配置是要設爲允許遠程訪問

5.Filter plugins
l Filter-grok-plugin

 解析任意文本並且結構化他們。grok目前是logstash中最好的解析非結構化日誌並且結構化他們的工具。這個工具非常適合syslog、apache log、mysql log之類的人們可讀日誌的解析

其配置參數如下:

    add_field => ... # hash (optional), default: {}

    add_tag => ... # array (optional), default: []

        break_on_match => ... # boolean (optional), default: true

設爲true時grok的第一個成功匹配將結束fliter操作,若想完成所有的匹配應該設爲false

    drop_if_match => ... # boolean (optional), default: false

    keep_empty_captures => ... # boolean (optional), default: false

    match => ... # hash (optional), default: {}

    named_captures_only => ... # boolean (optional), default: true存儲時間有命名的捕獲

    overwrite => ... # array (optional), default: []

允許字段重寫,字段已經存在用grok匹配的信息重寫該字段

 grok{

       match=>{"message"=>"%{SYSLOGBASE"}%{DATA:message}}

       Overwrite=>[“message”]  #重寫message字段

     }

    patterns_dir => ... # array (optional), default: []

    remove_field => ... # array (optional), default: []

    remove_tag => ... # array (optional), default: []

    tag_on_failure => ... # array (optional), default: ["_grokparsefailure"]表示沒有成功匹配

 

 

l Filter-date-plugin

從字段中解析日期,並將這個日期date或timestamp作爲事件的@timestamp

這個字段在整理事件和回填舊數據是特別有用

add-field =>{}  

remove-field =>[]

add-tag   =>[]

remove-tag =>[]

local=>””

match=>[“fieldname”,”format” “format”]

Format 有多種匹配格式的可能:MMM dd YYYY HH:mm:ss

                             MMM d YYYY HH:mm:ss

                             dd/MMM/yyyy:HH:mm:ss Z

                             ISO8601  (如:2011-04-19T03:44:01.1032)

Periodic_flush=>false

Tag_on_failure=>[“_datepardefailure”]沒有成功匹配是添加字段,此處爲默認值

Target=>“@timestamp”將匹配的timestamp字段放在指定的字段 默認是@timestamp

 

l Filter-syslog-plugin

Syslog對於Logstash是一個很長用的配置,並且它有很好的表現(協議格式符合RFC3164)。Syslog實際上是UNIX的一個網絡日誌 標準,由客戶端發送日誌數據到本地文件或者日誌服務器。在這個例子中,你根本不用建立syslog實例;我們通過命令行就可以實現一個syslog服務, 通過這個例子你將會看到發生什麼。
首先,讓我們創建一個簡單的配置文件來實現logstash+syslog,文件名是 logstash-syslog.conf

input {

  tcp {

    port => 5000

    type => syslog

  }

  udp {

    port => 5000

    type => syslog

  }

}

 

filter {

  if [type] == "syslog" {

    grok {

      match => { "message" => "%{SYSLOGTIMESTAMP:syslog_timestamp} %{SYSLOGHOST:syslog_hostname} %{DATA:syslog_program}(?:
)?: %{GREEDYDATA:syslog_message}" }

      add_field => [ "received_at", "%{@timestamp}" ]

      add_field => [ "received_from", "%{host}" ]

    }

    syslog_pri { }

    date {

      match => [ "syslog_timestamp", "MMM  d HH:mm:ss", "MMM dd HH:mm:ss" ]

    }

  }

}

 

output {

  elasticsearch { host => localhost }

  stdout { codec => rubydebug }

}


執行logstash:

bin/logstash -f logstash-syslog.conf


通常,需要一個客戶端鏈接到Logstash服務器上的5000端口然後發送日誌數據。在這個簡單的演示中我們簡單的使用telnet鏈接到 logstash服務器發送日誌數據(與之前例子中我們在命令行標準輸入狀態下發送日誌數據類似)。首先我們打開一個新的shell窗口,然後輸入下面的 命令:

telnet localhost 5000

你可以複製粘貼下面的樣例信息(當然也可以使用其他字符,不過這樣可能會被grok filter不能正確的解析):

Dec 23 12:11:43 louis postfix/smtpd[31499]: connect from unknown[95.75.93.154]

Dec 23 14:42:56 louis named[16000]: client 199.48.164.7#64817: query (cache) 'amsterdamboothuren.com/MX/IN' denied

Dec 23 14:30:01 louis CRON[619]: (www-data) CMD (php /usr/share/cacti/site/poller.php >/dev/null 2>/var/log/cacti/poller-error.log)

Dec 22 18:28:06 louis rsyslogd: [origin software="rsyslogd" swVersion="4.2.0" x-pid="2253" x-info="http://www.rsyslog.com"] rsyslogd was HUPed, type 'lightweight'.


之後你可以在你之前運行Logstash的窗口中看到輸出結果,信息被處理和解析!

{

                 "message" => "Dec 23 14:30:01 louis CRON[619]: (www-data) CMD (php /usr/share/cacti/site/poller.php >/dev/null 2>/var/log/cacti/poller-error.log)",

              "@timestamp" => "2013-12-23T22:30:01.000Z",

                "@version" => "1",

                    "type" => "syslog",

                    "host" => "0:0:0:0:0:0:0:1:52617",

        "syslog_timestamp" => "Dec 23 14:30:01",

         "syslog_hostname" => "louis",

          "syslog_program" => "CRON",

              "syslog_pid" => "619",

          "syslog_message" => "(www-data) CMD (php /usr/share/cacti/site/poller.php >/dev/null 2>/var/log/cacti/poller-error.log)",

             "received_at" => "2013-12-23 22:49:22 UTC",

           "received_from" => "0:0:0:0:0:0:0:1:52617",

    "syslog_severity_code" => 5,

    "syslog_facility_code" => 1,

         "syslog_facility" => "user-level",

         "syslog_severity" => "notice"

}

 

l Filter-mutate-plugin

替換重命名移除事件中的字段

add_field(hash)  ,add_tag(array) ,remove_field(array),remove_tag(array)

convert=>{} 改變字段類型,若爲array所有將轉換

eg:convert=> { “field_name” =>”integer”}

gsub => { “fieldname”,”/”,”_” } 將fielname字段值中所有”/”替換成 “_”

        “fieldname2”,”[\\?#-]”,”.” }  將fielname2字段值中所有”\?#-”替換成 “_”

Join => {} 將數組用分隔符連接合並起來

 “fieldname” =>”,”

 strip=>[] 去除字段首尾的空白格

Lowercase=> [“fieldname”] 將字符串轉換後才能小寫  uppercase =>[]

merge => {  }  合併兩個字段,array+string 或string+string

remove => [] 移除一個或多個字段, 新版本可能不可用

remove_field => {} 如果過濾器成功,從事件移除任意字段,可%{fieldname}

remove_tag  =>[]

rename 重命名一個或多個字段,hash rename=> {“HOSTIP”=>”client_ip”}

replace => {  } 給字段賦新值, update=> {  } 用一個新值更新字段

split=> { “fieldname”=>””},通過一個分隔字符將字段分離成一個array,僅string

注: mutate在有json插件的情況下要放在json之後,可修改json轉換後結構data中的字段

 

 

l Filter-geoip-plugin

查詢IP地址,從中得到物理地址信息並添加到日誌中,(該插件配置必須在grok配置後面)

指定包含要查詢的IP的字段的名稱(name)

Geoip{

        Source=>”clientip”  ->包含ip或者主機名,如果是array 只第一個可用

}

可直接分析一個ip的經緯度,歸屬地址信息

target=>”geoip”將解析得到的字段信息存放到指定字段中

database=>”pathofGeoipdatabase”  logstash使用的geoip數據庫,默認的是GeoLiteCity數據庫

l Filter-KV-plugin

幫助自動解析message,包含有foo=bar形式的自動解析爲foo:bar字段

適合像postfix,iptables和其他趨向key=value語法的日誌

add-field =>{}  

remove-field =>[]

add-tag   =>[]

remove-tag =>[]

source=>“message”

tagret=>””

periodic-flush=flase/true

allow_duplicate_values=>“true”允許重複key/value對兒  

eg:當有兩個“from”=me “from”=m設爲false  只允許唯一一個

default-keys=>{}向事件中添加健值對哈希表,以防source中不包含這些應有的字段

exclude-keys=>[]去除事件中不必要的健值對,填key

field-split=>“”字符串中的一個字符,用以劃分出可解析的key-value

   eg:pin=123&d=123&e=foo則field-split=>“&”

include-keys=>[]保留事件中需要的鍵值,去除剩餘的

include-brackets=>“true”值不包含括號(有去除)

prefix=>“”在所有key前加一個字符串

trim=>“”

trimkey=>“”去除key=value中的字符 如
<>

value -split=>“=”

上述操作僅對原event中field有效對default-keys添加的字段無效。

l Filter-multiline -plugin

不是線程安全的  不可解決多流信息

mulyiline{

    type=>

    pattern=>“”匹配模式

    negate=>“false”true=>不匹配的進行what

    what=>“previous/next”

}

 

“^\s”空格開頭“\\$”反斜線符

source=>“message”

allow-dulplicate=>true    允許重複值在event中

pattern-dir=>array   logstash自帶的匹配模式

    NUMBER\d+

l Fliter-ruby-plugin

執行ruby代碼

init=>“”在logstash啓動時執行的任何代碼

code=>“”爲每個事件執行的代碼要有一個指代事件  本身的event變量可用

add-field =>{}  

remove-field =>[]

add-tag   =>[]

remove-tag =>[]

periodic-flush=>“false”

l Filter-json-plugin

是一個轉換過濾插件,對一個包含json字格式數據的字段,可擴展成一個數據結構

add-field =>{}  

remove-field =>[]

add-tag   =>[]

remove-tag =>[]

source=>“message” 指定要轉換的字段(是Json格式) 默認是message字段

tagret=>””    指定轉換後數據的字段

6.output plugins
輸出插件統一具有一個參數是 workers。Logstash 爲輸出做了多線程的準備。

l Output-file-plugin

與input-file不同 這裏可用sprintf format格式自定義輸出到文件路徑

    path=>’’/path/to/configure file/’

    message_format=>”%{message}”

   默認參 是按json形式輸出整個event的數據,設爲%{message}是保存按照日誌的原始格式保存(前提是filter未修改刪除message字段)

Worker=>1  output 的worker數目

gzip=>false  如果設爲true,亂碼輸出

create_if_delete=>true 輸出file如果不存在被刪除 就自動新建一個

Codec=>”json_lines”編碼格式 可設爲rubydebug

l Output-stdout-plugin

標準輸出插件,直接將處理的數據輸出到命令行,是最基礎和簡單的輸出插件

Codec=>”json_lines”編碼格式 可設爲rubydebug

單就 outputs/stdout 插件來說,其最重要和常見的用途就是調試。所以在不太有效的時候,加上命令行參數 -vv 運行,查看更多詳細調試信息。

l Output-elasticsearch-plugin

將數據輸出到elasticsearch存放,方便搜索分析處理

hosts=>[host:port]

 這部分會專門發一篇博客,最近正在學習。

編碼插件(Codec)
Codec 是 logstash 從 1.3.0 版開始新引入的概念(Codec 來自 Coder/decoder 兩個單詞的首字母縮寫)。

在此之前,logstash 只支持純文本形式輸入,然後以過濾器處理它。但現在,我們可以在輸入 期處理不同類型的數據,這全是因爲有了 codec 設置。

所以,這裏需要糾正之前的一個概念。Logstash 不只是一個input | filter | output 的數據流,而是一個 input | decode | filter | encode | output 的數據流!codec 就是用來 decode、encode 事件的。

codec 的引入,使得 logstash 可以更好更方便的與其他有自定義數據格式的運維產品共存,比如 graphite、fluent、netflow、collectd,以及使用 msgpack、json、edn 等通用數據格式的其他產品等。
 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章