Elastic Stack:ELK

一、存儲系統分類

1.1 非結構化存儲

定義:指不定長或無固定格式的數據,如郵件,word文檔等

1.1.1 常見使用設備

①Block:需要分區,格式化,不支持多個節點掛載使用。rbd(Ceph)
②Filesystem:NFS,HDFS(hadoop Filesystem),FastDFS(輕量級,適用於存儲圖片),輸出的API已經是文件了,支持多個節點掛載使用

1.2 半結構化存儲

定義:非關係模型的、有基本固定結構模式的數據,例如日誌文件、XML文檔、JSON文檔、Email等
流派:

K/V存儲  :redis,TiKV(原生K/V存儲系統)

Document存儲:MongoDB,CahceDB,ElastcSearch:每個數據項自帶的字段和值,可以後期添加字段和值,還可以嵌套值,---> 文檔(Document)

Colume Family存儲:HBase (Hadoop Database)

GraphDB:圖式存儲:Neo4j

1.3 結構化存儲

定義:指具有固定格式或有限長度的數據,如數據庫,元數據等

特點:

① TiDB: 是一個分佈式 NewSQL 數據庫。它支持水平彈性擴展、ACID 事務、標準 SQL、MySQL 語法和 MySQL 協議,具有數據強一致的高可用特性,是一個不僅適合 OLTP 場景還適OLAP 場景的混合數據庫

②shema要求嚴格

二、 ELK日誌分析系統組成

2.3.1 ElasticSearch

ElasticSearch定義: Elasticsearch 是一個分佈式、高擴展、高實時的搜索與數據分析引擎。

2.3.2 Logstash和Filebeat

Logstash定義: 集中、轉換和存儲數據

Filebeat定義: 輕量型日誌採集器;從安全設備、雲、容器、主機還是 OT 進行數據收集,Filebeat 都會提供一種輕量型方法,用於轉發和彙總日誌與文件

Filebeat是Beats中的一個組件,以下是Beats的介紹以及組件組件構成:

介紹: beats組件是一系列用於採集數據的輕量級代理程序,用於從服務端收集日誌、網絡、監控數據,並最終彙總到elasticsearch。beats組件收集的數據即可以直接上報給elasticsearch,也可以通過logstash中轉處理後上報給elasticsearc。

beats根據功能劃分有多種組件:

PacketBeat:用於分析和收集服務器的網絡包數據;

Heartbeat:主要是檢測服務或主機是否正常運行或存活,Heartbeat 能夠通過 ICMP、TCP 和 HTTP 進行 ping 檢測;

FileBeat:主要用於轉發和集中日誌數據。Filebeat作爲代理安裝在服務器上,監視您指定的日誌文件或位置,收集日誌事件,並將它們轉發到ElasticSearch或Logstash進行索引;

MetricBeat:定期收集操作系統、軟件或服務的指標數據,支持收集的module非常多,常用的有docker、kafka、mysql、nginx、redis、zookeeper等等

Packetbeat:是一款輕量型網絡數據包分析器,Packetbeat的工作原理是捕獲應用程序服務器之間的網絡流量,解碼應用程序層協議(HTTP,MySQL,Redis等)

Auditbeat 允許您在 Linux、macOS 和 Windows 平臺上仔細監控任何您感興趣的文件目錄。文件改變會被實時發送到 Elasticsearch,每條消息都包含元數據和文件內容的加密哈希信息,以便後續進一步分析;

Topbeat:蒐集系統,進程和文件系統級別的CPU和內存使用情況,已經被Metricbeat取代;

WinlogBeat:用於收集windows系統的event log;

2.3.3 Kibana

定義: Kibana 是爲 Elasticsearch設計的開源分析和可視化平臺

三、ELK日誌分析系統簡介

3.1Elasticsearch定義

Elasticsearch是一個分佈式的開源搜索和分析引擎,適用於所有類型的數據,包括文本、數字、地理空間、結構化和非結構化數據。Elasticsearch在Apache Lucene的基礎上開發而成,由Elasticsearch N.V.(即現在的Elastic)於2010年首次發佈。Elasticsearch以其簡單的REST風格API、分佈式特性、速度和可擴展性而聞名,是Elastic Stack的核心組件; Elastic Stack 是適用於數據採集、充實、存儲、分析和可視化的一組開源工具。人們通常將Elastic Stack稱爲ELK Stack(代指Elasticsearch、Logstash和Kibana),目前Elastic Stack 包括一系列豐富的輕量型數據採集代理,這些代理統稱爲Beats,可用來向Elasticsearch 發送數據。

3.2 Elasticsearch的用途

Elasticsearch在速度和可擴展性方面都表現出色,而且還能夠索引多種類型的內容,這意味着其可用於多種用例:

應用程序搜索
網站搜索
企業搜索
日誌處理和分析
基礎設施指標和容器監測
應用程序性能監測
地理空間數據分析和可視化
安全分析
業務分析

3.3ElasticSearch的原理

3.3.1 搜索引擎工作的過程

爬取內容、進行分詞、建立反向索引(倒排索引)

爬取內容:網頁爬取數據,所謂的爬蟲;

進行分詞:對爬取到數據進行切片;
🙄注意:數據中沒有意義的字,例如“的、而 、和…”,這些詞本身是沒有意義的,認爲是停頓詞,所以這些詞沒必要建立索引的。

倒排索引:根據分詞搜索爬取的完整內容

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述Map:映射

input document:讀入文檔

Noemalization:全部統一化(同義詞替換、統一大小寫…)

Reduce:摺疊

Key-alue pairs:鍵值對:每個詞出現文檔的編號

final reverse index:倒排索引,數據縮減

3.3.2 ElasticSearch 來源

ElasticSearch的之前是一個叫做Lucene的庫,必要懂一些搜索引擎原理的人才會使用,所有有人基於Lucene進行封裝,就成了今天我們看到的ElasticSearch。
ElasticSearch對搜索引擎的操作都封裝成了restful的api,通過http的請求就能進行搜索操作。

#獲取指定主機上的test索引中_doc類型中的1文檔
curl -XGET '127.0.0.1:9200/test/_doc/1?pretty=true'

3.3.3 ElasticSearch 基本概念

索引、類型、文檔
爲了方便理解與MySQL數據庫中的庫、表、行對應i起來
在這裏插入圖片描述

3.3.4 存儲ElasticSearch數據

比如一首詩,有詩題、作者、朝代、字數、詩內容等字段,那麼首先,我們可以建立一個名叫 Poems 的索引,然後創建一個名叫 Poem 的類型,類型是通過 Mapping 來定義每個字段的類型。

比如詩題、作者、朝代都是 Keyword 類型,詩內容是 Text 類型,而字數是 Integer 類型,最後就是把數據組織成 Json 格式存放進去了。

索引
poems

類型
"poem": {
    "properties": {
        "title": {
            "type":"keyword",
},
        "author":{
   			 "type": "keyword",
},
		"dynasty": {
		    "type": "keyword"
},
		"words": {
  		   "type": "integer"
},
		"content": {
 		   "type": "text"
   }
  }
}

文檔
{
	"title":"靜夜思",
	"author":"李白",
	"dynasty":"唐",
	"words":"20",
    "content":"牀前明月光,疑是地上霜。舉頭望明月,低頭思故鄉。"
}

😶注意:keyword與text的區別


keyword 直接直接建立反向索引
test 先分詞 後建立反向索引

3.4 ElasticSearch 分佈式原理

爲了確保分佈式環境的高可用,ElasticSearch也會對數據進行切分,同時會保存多個副本。

在這裏插入圖片描述

3.4 ElasticSearch數據同步

在 Elasticsearch 中,節點是對等的,節點間會通過自己的一些規則選取集羣的 Master,Master 會負責集羣狀態信息的改變,並同步給其他節點
在這裏插入圖片描述
🙄注意:只有建立索引和類型需要經過 Master,數據的寫入有一個簡單的 Routing 規則,可以 Route 到集羣中的任意節點,所以數據寫入壓力是分散在整個集羣的。

ElasticSearch 總結:

  1. ElasticSearch 在Lucene的基礎上進行封裝,實現了分佈式搜索引擎;
  2. ElasticSearch中數據存在索引、類型和文檔的概念,相當於MySQL中的數據庫、表、行;
  3. ElasticSearch 本身就是集羣高可用應用,所以也存在master-slave架構,實現數據的分片和備份;
  4. ElasticSearch 的典型應用就是ELK的日誌分析系統。

3.5 Logstash

3.5.1 Logstash的簡介

logstash是一個數據分析軟件,主要目的是分析log日誌。整一套軟件可以當作一個MVC模型,logstash是controller層,Elasticsearch是一個model層,kibana是view層。首先將數據傳給logstash,它將數據進行過濾和格式化(轉成JSON格式),然後傳給Elasticsearch進行存儲、建搜索的索引,kibana提供前端的頁面再進行搜索和圖表可視化,它是調用Elasticsearch的接口返回的數據進行可視化。

3.5.1 Logstash的架構

Logstash事件處理管道有三個階段:輸入(input)→過濾器(filter)→輸出(output),輸入生成事件,過濾器修改它們,然後輸出將它們發送到其他地方。輸入和輸出支持編解碼器,使你能夠在數據進入或離開管道時對其進行編碼或解碼,而無需使用單獨的過濾器。

在這裏插入圖片描述

3.5.1.1 Input輸入

將數據收錄到Logstash中,一些比較常用的輸入是:

**- file:**從文件系統上的文件進行讀取,類似於UNIX命令tail -5f file.txt
- syslog: 在端口514上監聽syslog消息並根據RFC3164格式進行解析
- redis: 從redis服務器讀取數據,同時使用Redis通道和Redis列表,Redis通常被用作集中式Logstash安裝中的“broker”,它將從遠程Logstash “shipper”中的Logstash事件排隊
- beats: 處理Beats發送的事件
- stdin: 模塊是用於標準輸入,就是從標準輸入讀取數據



範例:從標準輸入讀取數據

[10:15:42 root@localhost conf.d]#vim  ./test4.conf  
input {
    stdin {
        add_field => {"key" => "value"}
        codec => "plain"
        tags => ["add"]
        type => "std"                                              
    }
}
output {
    stdout {
        codec => rubydebug
    }
}

[10:16:28 root@localhost conf.d]#/usr/share/logstash/bin/logstash -f ./test4.conf 
lulu  #手動輸入
{
          "host" => "localhost.localdomain",
    "@timestamp" => 2020-12-31T02:19:18.620Z,
          "type" => "std",
           "key" => "value",
          "tags" => [
        [0] "add"
    ],
       "message" => "lulu",
      "@version" => "1"
}

3.5.1.2 filter過濾器

過濾器是Logstash管道中的中間處理設備,如果事件過濾器的條件,你可以將過濾器與條件語句組合在一起,對其執行操作,一些常用的過濾器包括:

- grok: 解析和構造任意文本,Grok是目前Logstash中解析非結構化日誌數據到結構化和可查詢數據的最佳方式,內置有120種模式
- mutate: 對事件字段執行一般的轉換,你可以重命名、刪除、替換和修改事件中的字段
- drop: 完全刪除事件,例如debug事件
- clone: 複製事件,可能添加或刪除字段
- geoip: 添加關於IP地址地理位置的信息



範例:GeoIP插件

GeoIP 是最常見的免費 IP 地址歸類查詢庫,同時也有收費版可以採購。GeoIP 庫可以根據 IP 地址提供對應的地域信息,包括國別,省市,經緯度等,對於可視化地圖和區域統計

[20:59:10 root@localhost ~]#cd /etc/logstash/conf.d/

[20:59:29 root@localhost conf.d]#cat test3.conf 
input {
    stdin {
        type => "std"
    }
}
filter {
    geoip {
        source => "message"
    }
}
output{stdout{codec=>rubydebug}}

[21:08:52 root@localhost ~]#/usr/share/logstash/bin/logstash -f  /etc/logstash/conf.d/test3.conf 
183.60.92.253 #手動輸入IP地址進行分析
{
         "geoip" => {
          "country_name" => "China",
              "location" => {
            "lon" => 113.25,
            "lat" => 23.1167
        },
         "country_code2" => "CN",
         "country_code3" => "CN",
              "latitude" => 23.1167,   #緯度
                    "ip" => "183.60.92.253",
        "continent_code" => "AS",
           "region_name" => "Guangdong",
           "region_code" => "GD",
             "longitude" => 113.25,   #經度
              "timezone" => "Asia/Shanghai"
    },
          "host" => "localhost.localdomain",
      "@version" => "1",
          "type" => "std",
       "message" => "183.60.92.253",
    "@timestamp" => 2020-12-30T13:06:41.614Z
}

範例:grok插件

#logstach中自帶grok插件
logstash擁有豐富的filter插件,它們擴展了進入過濾器的原始數據,進行復雜的邏輯處理,甚至可以無中生有的添加新的 logstash 事件到後續的流程中去!Grok 是 Logstash 最重要的插件之一。也是迄今爲止使蹩腳的、無結構的日誌結構化和可查詢的最好方式。Grok在解析 syslog logs、apache and other webserver logs、mysql logs等任意格式的文件上表現完美。

[19:40:42 root@localhost ~]#cd /etc/logstash/conf.d/

#在test2.conf中插入grok插件
[19:41:25 root@localhost conf.d]#vim test2.conf 
input {
    stdin {}
}

filter {
    grok {
        match => {
            "message" => "%{COMBINEDAPACHELOG}  
        }
        remove_field => "message"  #移除message字段信息
    }
} 

output {
    stdout {
        codec => rubydebug
    }
}

[19:49:03 root@localhost conf.d]#/usr/share/logstash/bin/logstash -f  ./test2.conf
10.0.0.18 - - [29/Dec/2020:17:47:56 +0800] "GET /test1.html HTTP/1.1" 200 11 "-" "curl/7.61.1" "-"  #手動輸入nginx訪問信息,因爲該文件加入了grok插件,所以將每個字段詳細分解
{
      "timestamp" => "29/Dec/2020:17:47:56 +0800",
          "agent" => "\"curl/7.61.1\"",
          "bytes" => "11",
           "auth" => "-",
       "clientip" => "10.0.0.18",
           "host" => "localhost.localdomain",
           "verb" => "GET",
     "@timestamp" => 2020-12-29T11:50:18.000Z,
    "httpversion" => "1.1",
       "@version" => "1",
          "ident" => "-",
       "response" => "200",
       "referrer" => "\"-\"",
        "request" => "/test1.html"
}

3.5.1.3 Output 輸出

輸出是Logstash管道的最後階段,事件可以通過多種方式輸出,一旦所有的輸出處理完成,事件就結束了。

- elasticsearch: 發送事件數據到Elasticsearch,如果你打算以一種高效、方便、易於查詢的格式保存數據,那麼使用Elasticsearch是可行的。
- file: 將事件數據寫入磁盤上的文件
- graphite: 將事件數據發送到graphite,這是一種流行的用於存儲和繪製指標的開源工具。
- statsd: 發送事件到statsd,“監聽統計信息(如計數器和計時器)、通過UDP發送聚合並將聚合發送到一個或多個可插拔後端服務”的服務
- stdout: 標準輸出



範例:將日誌統一收集到指定文件種


[10:37:13 root@localhost ~]#cat /etc/logstash/conf.d/test6.conf 
input {
    stdin{
        type => "std"
    }
}

output {
    file {
        path => "/tmp/%{+yyyy}-%{+MM}-%{+dd}-%{host}.log"
        codec => line{format => "%{message}"}
    }
}

[10:40:20 root@localhost conf.d]#/usr/share/logstash/bin/logstash -f ./test6.conf  
...
i love linux  #手動輸入
[INFO ] 2020-12-31 10:38:35.822 [[main]>worker0] file - Closing file /tmp/2020-12-31-localhost.localdomain.log     #手動輸入的內容收集到 /tmp/2020-12-31-localhost.localdomain.log 文件中

#日誌文件內容驗證
[10:38:37 root@localhost ~]#cat /tmp/2020-12-31-localhost.localdomain.log
i love linux

3.5.1.3 Codecs 編解碼器

Codecs可以作爲輸入或輸出的一部分進行操作,Codecs使用戶能夠輕鬆地將消息的傳輸與序列化過程分開, 形成input | decode | filter | encode | output 的數據流,流行的codecs包括json、msgpack和plain(text)

範例:

默認情況下,logstash只支持純文本形式的輸入,然後在過濾器filter種將數據加工成指定格式。現在可以在input指定數據類型,全部是因爲有了codecs的設置。

[10:07:54 root@localhost ~]#cat  /etc/logstash/conf.d/test4.conf  
input {
    stdin {
        add_field => {"key" => "value" }
        codec => "json"
        type => "std"
    
    }

}
output {
    stdout {
        codec => rubydebug
    }
}

[09:54:45 root@localhost ~]#/usr/share/logstash/bin/logstash -f 
...
/etc/logstash/conf.d/test4.conf 
{"name":"lulu"}  #手動輸入json格式的鍵值對
{
          "name" => "lulu",
          "host" => "localhost.localdomain",
    "@timestamp" => 2020-12-31T02:06:20.998Z,
           "key" => "value",
      "@version" => "1",
          "type" => "std"
}

3.6 Filebeat

3.6.1 Filebeat的工作流程

當開啓Filebeat程序的時候,它會啓動一個或多個探測器去指定的日誌目錄或文件,對於探測器找出每一個日誌文件,Filebeat會啓動收集進程,每一個收集進程讀取一個日誌文件內容,然後將這些日誌發送到後臺處理程序,後臺處理程序會集合這些事件,最後將集合後的數據發送到output指定的目的地。

3.6.2 基於 Filebeat 的 ELK 集羣架構

在這裏插入圖片描述

3.7 kibana

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章