ELK日誌分析平臺(二) --- Logstash數據採集實戰

一、logstash簡介

Logstash是一個開源的服務器端數據處理管道。

logstash擁有200多個插件,能夠同時從多個來源採集數據,轉換數據,然後將數據發送到您最喜歡的 “存儲庫” 中。(大多都是 Elasticsearch。)

Logstash管道有兩個必需的元素,輸入和輸出,以及一個可選元素過濾器。

在這裏插入圖片描述

輸入

輸入:採集各種樣式、大小和來源的數據

  • Logstash 支持各種輸入選擇 ,同時從衆多常用來源捕捉事件。
  • 能夠以連續的流式傳輸方式,輕鬆地從您的日誌、指標、Web 應用、數據存儲以及各種 AWS 服務採集數據。

在這裏插入圖片描述

過濾器

過濾器:實時解析和轉換數據
數據從源傳輸到存儲庫的過程中,Logstash 過濾器能夠解析各個事件,識別已命名的字段以構建結構,並將它們轉換成通用格式,以便更輕鬆、更快速地分析和實現商業價值。

  • 利用 Grok 從非結構化數據中派生出結構
  • 從 IP 地址破譯出地理座標
  • 將 PII 數據匿名化,完全排除敏感字段
  • 簡化整體處理,不受數據源、格式或架構的影響

輸出

輸出:選擇您的存儲庫,導出您的數據

  • 儘管 Elasticsearch 是我們的首選輸出方向,能夠爲我們的搜索和分析帶來無限可能,但它並非唯一選擇。
  • Logstash 提供衆多輸出選擇,您可以將數據發送到您要指定的地方,並且能夠靈活地解鎖衆多下游用例。

在這裏插入圖片描述

二、Logstash安裝與配置

軟件下載:https://elasticsearch.cn/download/

注意:下載的版本要和es的版本一致

安裝:
我們之前的es集羣部署在server1、server2和server3上,Logstash部署在server4(172.25.1.4)上:

Logstash依賴於jdk,因此首先安裝jdk:

[root@server4 ~]# ls
jdk-8u181-linux-x64.rpm  logstash-7.6.1.rpm
[root@server4 ~]# rpm -ivh jdk-8u181-linux-x64.rpm 
[root@server4 ~]# rpm -ivh logstash-7.6.1.rpm 

安裝後其配置文件的位置爲:/etc/logstash/logstash.yml

測試是否安裝好:

標準輸入到標準輸出:

[root@server4 bin]# /usr/share/logstash/bin/logstash -e 'input { stdin { } } output { stdout {} }'
......
[INFO ] 2020-06-07 17:06:25.315 [Api Webserver] agent - Successfully started Logstash API endpoint {:port=>9600}

等待成功啓動後,輸入測試字符:
在這裏插入圖片描述從返回可以看出Logstash正常工作。

輸入完成後按ctrl+c退出。

三、Logstash的使用

使用文件運行

當然也可以在include目錄/etc/logstash/conf.d/中定義conf文件,然後在conf中輸入:

[root@server4 conf.d]# vim test.conf
[root@server4 conf.d]# cat test.conf 
input {
	stdin {}
}
output {
	stdout {}
}

用文件的形式運行:

[root@server4 conf.d]# /usr/share/logstash/bin/logstash -f /etc/logstash/conf.d/test.conf 

在這裏插入圖片描述可以看出和之前命令行的形式相同。

標準輸出到文件

[root@server4 conf.d]# vim test.conf 
[root@server4 conf.d]# cat test.conf 
input {
	stdin {}
}
output {
 file {
   path => "/tmp/testfile"
   codec => line { format => "custom format: %{message}"}
 }
}

運行:
[root@server4 conf.d]# /usr/share/logstash/bin/logstash -f /etc/logstash/conf.d/test.conf 

以上內容表示在終端輸入的內容會保存到/tmp/testfile文件中,codec定義了保存的格式,運行後輸入:在這裏插入圖片描述在另一個終端中查看文件內容:

[root@server4 ~]# cat /tmp/testfile 
custom format: hello
custom format: world

可以看到內容成功保存。

注意:如果長時間不錄入內容時文件會關閉,再次錄入會再次打開。

標準輸入到es主機

在include目錄中可以定義多個conf文件。

[root@server4 conf.d]# vim es.conf 
[root@server4 conf.d]# cat es.conf 
input {
	stdin {}
}
output {
	elasticsearch {
	index => "logstach-%{+YYYY.MM.dd}"			#es保存的格式
	hosts => ["172.25.1.1:9200"]		#es主機地址
	}
}

運行:
[root@server4 conf.d]# /usr/share/logstash/bin/logstash -f /etc/logstash/conf.d/es.conf 

運行後輸入以下內容:
在這裏插入圖片描述輸入後查看es:
在這裏插入圖片描述可以看到已經保存到了es,也可以查看數據,點擊數據概覽->logstach-2020.0607:
在這裏插入圖片描述
在message字段中可以看到輸入的內容,需要注意的是每行信息都會生成一個文件。

也可以在輸出中調用兩個模塊,如:

[root@server4 conf.d]# vim es.conf 
[root@server4 conf.d]# cat es.conf 
input {
	stdin {}
}
output {
	stdout {}
	elasticsearch {
	index => "logstach-%{+YYYY.MM.dd}"
	hosts => ["172.25.1.1:9200"]
	}
}
[root@server4 conf.d]# /usr/share/logstash/bin/logstash -f /etc/logstash/conf.d/es.conf 

以上這種形式輸出時不僅會在終端輸出還會輸出到es主機在這裏插入圖片描述
在這裏插入圖片描述

把文件內容輸出到es主機

在logstach運行時會調用logstach用戶,因此我們需要保證logstach用戶對調用的文件有讀取權限:

[root@server4 conf.d]# ll /var/log/messages 
-rw------- 1 root root 62122 Jun  7 17:19 /var/log/messages
[root@server4 conf.d]# chmod 644 /var/log/messages 
[root@server4 conf.d]# ll /var/log/messages 
-rw-r--r-- 1 root root 62122 Jun  7 17:19 /var/log/messages

編輯conf文件內容:

[root@server4 conf.d]# vim es.conf 
[root@server4 conf.d]# cat es.conf 
input {
	file {
	path => "/var/log/messages"
	start_position => "beginning"
	}
}
output {
	stdout {}
	elasticsearch {
	index => "logstach-%{+YYYY.MM.dd}"
	hosts => ["172.25.1.1:9200"]
	}
}

[root@server4 conf.d]# /usr/share/logstash/bin/logstash -f /etc/logstash/conf.d/es.conf 

上述內容表示從文件/var/log/messages的開頭讀取信息後存入es主機中:

運行後會在終端輸出信息:
在這裏插入圖片描述在es中也可以查看到信息:
在這裏插入圖片描述

sincedb文件

當我們再次運行一次時:

[root@server4 conf.d]# /usr/share/logstash/bin/logstash -f /etc/logstash/conf.d/es.conf 

在這裏插入圖片描述
可以看到在終端沒有輸出(此處先不要退出Logstash),表示Logstash並沒有再讀取文件/var/log/messages,這是什麼原因呢,原因就是logstash會把進度保存到sincedb文件中,再次運行時發現已經讀取過,爲了避免重複讀取因此就不會讀取了。.sincedb文件保存在/usr/share/logstash/data/plugins/inputs/file/目錄中:

在另一終端:

[root@server4 conf.d]# cd /usr/share/logstash/data/plugins/inputs/file/
[root@server4 file]# ls
[root@server4 file]# ll .sincedb_452905a167cf4509fd08acb964fdb20c 
-rw-r--r-- 1 root root 118 Jun  8 11:07 .sincedb_452905a167cf4509fd08acb964fdb20c
[root@server4 file]# cat .sincedb_452905a167cf4509fd08acb964fdb20c 
12767815 0 64768 62122 1591522869.9633632 /var/log/messages

sincedb文件一共6個字段

  1. inode編號
  2. 文件系統的主要設備號
  3. 文件系統的次要設備號
  4. 文件中的當前字節偏移量
  5. 最後一個活動時間戳(浮點數)
  6. 與此記錄匹配的最後一個已知路徑

此時在日誌文件中增加內容:

[root@server4 ~]# logger redhat 
[root@server4 ~]# tail -1 /var/log/messages
Jun  7 19:21:16 server4 root: redhat

查看Logstash終端輸出:
在這裏插入圖片描述
可以看到變化的內容會輸出。

當把sincedb文件刪除後,讀取時就是重新讀取。

Logstash採集遠程日誌

logstash可以僞裝成日誌服務器,直接接受遠程日誌。

[root@server4 conf.d]# vim es.conf 
[root@server4 conf.d]# cat es.conf 
input {
	syslog {
	port => 514
	}
}
output {
	stdout {}
	elasticsearch {
	index => "syslog-%{+YYYY.MM.dd}"
	hosts => ["172.25.1.1:9200"]
	}
}

以上內容表示調用syslog模塊打開514端口採集遠程主機日誌後保存到es主機,運行:

[root@server4 conf.d]# /usr/share/logstash/bin/logstash -f /etc/logstash/conf.d/es.conf 

運行後在另一終端查看端口情況:

[root@server4 ~]# netstat -antulp | grep :514
tcp6       0      0 :::514                  :::*                    LISTEN      12746/java          
udp        0      0 0.0.0.0:514             0.0.0.0:*                           12746/java 

可以看到514端口已經打開。

在遠程主機配置rsyslog:

[root@server1 ~]# vim /etc/rsyslog.conf 
[root@server1 ~]# tail -1 /etc/rsyslog.conf 
*.* @@172.25.1.4:514
[root@server1 ~]# systemctl restart rsyslog.service

此時查看logstash主機輸出:

在這裏插入圖片描述可以看到已經接收到了遠程主機server1的日誌。

在其他主機(server1,server2)上也進行與server1相同的配置。

在server1進行測試:

[root@server1 ~]# logger hello server1

在logstach主機終端查看:
在這裏插入圖片描述可以看到測試日誌信息已經保存到es中。

多行過濾插件

多行過濾可以把多行日誌記錄合併爲一行事件:

[root@server4 conf.d]# vim test.conf 
[root@server4 conf.d]# cat test.conf 
input {
	stdin {							#標準輸入模塊
	codec => multiline {			#多行輸入模塊
		pattern => "^EOF"			#匹配模式爲以EOF開頭
		negate => true				#表示匹配到
		what => previous			#匹配到後向上合併
		}
	}
}
output {
	stdout {}
}

[root@server4 conf.d]# /usr/share/logstash/bin/logstash -f /etc/logstash/conf.d/test.conf 

在這裏插入圖片描述

用以上這種方法可以處理一些多行的日誌信息,比如es.log文件中的信息:
在這裏插入圖片描述
圖中這個日誌信息在原來的方法匹配過後每一行都會成爲一條信息,而通過多行匹配可以將其整合爲一條信息,通過觀察可以看出每條日誌信息的開頭都是[,因此可以通過匹配這個符號來進行多行匹配:

[root@server4 conf.d]# vim es.conf 
[root@server4 conf.d]# cat es.conf 
input {
	file {
	path => "/var/log/my-es.log"		#制定文件路徑,注意讀取權限
	start_position => "beginning"
	codec => multiline {
		pattern => "^\["				#由於[爲特殊字符,因此需要轉義
		negate => true
		what => previous
		}
	}
}
output {
	elasticsearch {
	index => "eslog-%{+YYYY.MM.dd}"
	hosts => ["172.25.1.1:9200"]
	}
}
[root@server4 conf.d]# /usr/share/logstash/bin/logstash -f /etc/logstash/conf.d/es.conf 

以上這種方式就可以實現日誌逐條採集而不是逐行採集,在es查看:
在這裏插入圖片描述可以看到多行日誌以及合併爲一條。

四、grok過濾插件

grok過濾插件可以將非結構的數據結構化:

[root@server4 conf.d]# vim test.conf 
[root@server4 conf.d]# cat test.conf 
input {
	stdin {}
}
filter {
	grok {
	  match => { "message" => "%{IP:client} %{WORD:method} %{URIPATHPARAM:request} %{NUMBER:bytes} %{NUMBER:duration}" }
	}
}
output {
	stdout {}
}

[root@server4 conf.d]# /usr/share/logstash/bin/logstash -f /etc/logstash/conf.d/test.conf 

運行後輸入以下測試信息:

55.3.244.1 GET /index.html 15824 0.043

在這裏插入圖片描述
可以看到錄入的時非結構化的數據,但是通過過濾後變成了結構化的數據。

apache服務日誌過濾實戰

再進行一個實驗,安裝httpd並啓動,寫入測試頁面:

[root@server4 conf.d]# yum install httpd -y
[root@server4 conf.d]# systemctl start httpd
[root@server4 conf.d]# cd /var/www/html/
[root@server4 html]# vim index.html
[root@server4 html]# cat index.html
www.redhat.com

在其他主機請求這個頁面:

[root@foundation1 bin]# ab -c 1 -n 100 http://172.25.1.4/index.html

表示請求一百次index頁面。

在server4更改日誌訪問權限,使得Logstash用戶能夠訪問到:

[root@server4 html]# cd /var/log/httpd/
[root@server4 httpd]# ls
access_log  error_log
[root@server4 httpd]# ll -d .
drwx------ 2 root root 41 Jun  8 16:10 .
[root@server4 httpd]# chmod 755 .
[root@server4 httpd]# ll -d .
drwxr-xr-x 2 root root 41 Jun  8 16:10 .
[root@server4 httpd]# ll access_log 		#訪問日誌文件
-rw-r--r-- 1 root root 10200 Jun  8 16:12 access_log

在這裏插入圖片描述可以看到訪問的記錄。

讀取並過濾該日誌:

[root@server4 conf.d]# vim es.conf 
[root@server4 conf.d]# cat es.conf 
input {
	file {
	path => "/var/log/httpd/access_log"
	start_position => "beginning"
	}
}
filter {
	grok {
	match => { "message" => "%{HTTPD_COMBINEDLOG}" }		#logstach內置了apache的日誌格式,直接調用即可
	}
}
output {
	elasticsearch {
	index => "apachelog-%{+YYYY.MM.dd}"
	hosts => ["172.25.1.1:9200"]
	}
}

[root@server4 conf.d]# /usr/share/logstash/bin/logstash -f /etc/logstash/conf.d/es.conf 

運行後在es主機查看:
在這裏插入圖片描述
查看日誌信息:

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章