一、存儲系統分類

1.1 非結構化存儲

定義：指不定長或無固定格式的數據，如郵件，word文檔等

1.1.1 常見使用設備

①Block：需要分區，格式化，不支持多個節點掛載使用。rbd（Ceph）
②Filesystem：NFS，HDFS（hadoop Filesystem），FastDFS（輕量級，適用於存儲圖片），輸出的API已經是文件了，支持多個節點掛載使用

1.2 半結構化存儲

定義：非關係模型的、有基本固定結構模式的數據，例如日誌文件、XML文檔、JSON文檔、Email等
流派：

K/V存儲  ：redis，TiKV（原生K/V存儲系統）

Document存儲：MongoDB，CahceDB，ElastcSearch：每個數據項自帶的字段和值，可以後期添加字段和值，還可以嵌套值，---> 文檔（Document）

Colume Family存儲：HBase （Hadoop Database）

GraphDB：圖式存儲：Neo4j

1.3 結構化存儲

定義：指具有固定格式或有限長度的數據，如數據庫，元數據等

特點：

① TiDB： 是一個分佈式 NewSQL 數據庫。它支持水平彈性擴展、ACID 事務、標準 SQL、MySQL 語法和 MySQL 協議，具有數據強一致的高可用特性，是一個不僅適合 OLTP 場景還適OLAP 場景的混合數據庫

②shema要求嚴格

二、 ELK日誌分析系統組成

2.3.1 ElasticSearch

ElasticSearch定義： Elasticsearch 是一個分佈式、高擴展、高實時的搜索與數據分析引擎。

2.3.2 Logstash和Filebeat

Logstash定義： 集中、轉換和存儲數據

Filebeat定義： 輕量型日誌採集器；從安全設備、雲、容器、主機還是 OT 進行數據收集，Filebeat 都會提供一種輕量型方法，用於轉發和彙總日誌與文件

Filebeat是Beats中的一個組件，以下是Beats的介紹以及組件組件構成：

介紹： beats組件是一系列用於採集數據的輕量級代理程序，用於從服務端收集日誌、網絡、監控數據，並最終彙總到elasticsearch。beats組件收集的數據即可以直接上報給elasticsearch，也可以通過logstash中轉處理後上報給elasticsearc。

beats根據功能劃分有多種組件：

PacketBeat：用於分析和收集服務器的網絡包數據；

Heartbeat：主要是檢測服務或主機是否正常運行或存活，Heartbeat 能夠通過 ICMP、TCP 和 HTTP 進行 ping 檢測；

FileBeat：主要用於轉發和集中日誌數據。Filebeat作爲代理安裝在服務器上，監視您指定的日誌文件或位置，收集日誌事件，並將它們轉發到ElasticSearch或Logstash進行索引；

MetricBeat：定期收集操作系統、軟件或服務的指標數據，支持收集的module非常多，常用的有docker、kafka、mysql、nginx、redis、zookeeper等等

Packetbeat:是一款輕量型網絡數據包分析器，Packetbeat的工作原理是捕獲應用程序服務器之間的網絡流量，解碼應用程序層協議（HTTP，MySQL，Redis等）

Auditbeat 允許您在 Linux、macOS 和 Windows 平臺上仔細監控任何您感興趣的文件目錄。文件改變會被實時發送到 Elasticsearch，每條消息都包含元數據和文件內容的加密哈希信息，以便後續進一步分析;

Topbeat:蒐集系統，進程和文件系統級別的CPU和內存使用情況,已經被Metricbeat取代;

WinlogBeat：用於收集windows系統的event log；

2.3.3 Kibana

定義： Kibana 是爲 Elasticsearch設計的開源分析和可視化平臺

三、ELK日誌分析系統簡介

3.1Elasticsearch定義

Elasticsearch是一個分佈式的開源搜索和分析引擎，適用於所有類型的數據，包括文本、數字、地理空間、結構化和非結構化數據。Elasticsearch在Apache Lucene的基礎上開發而成，由Elasticsearch N.V.(即現在的Elastic)於2010年首次發佈。Elasticsearch以其簡單的REST風格API、分佈式特性、速度和可擴展性而聞名，是Elastic Stack的核心組件; Elastic Stack 是適用於數據採集、充實、存儲、分析和可視化的一組開源工具。人們通常將Elastic Stack稱爲ELK Stack(代指Elasticsearch、Logstash和Kibana)，目前Elastic Stack 包括一系列豐富的輕量型數據採集代理，這些代理統稱爲Beats，可用來向Elasticsearch 發送數據。

3.2 Elasticsearch的用途

Elasticsearch在速度和可擴展性方面都表現出色，而且還能夠索引多種類型的內容，這意味着其可用於多種用例:

應用程序搜索
網站搜索
企業搜索
日誌處理和分析
基礎設施指標和容器監測
應用程序性能監測
地理空間數據分析和可視化
安全分析
業務分析

3.3ElasticSearch的原理

3.3.1 搜索引擎工作的過程

爬取內容、進行分詞、建立反向索引（倒排索引）

爬取內容：網頁爬取數據，所謂的爬蟲；

進行分詞：對爬取到數據進行切片；
🙄注意：數據中沒有意義的字，例如“的、而、和…”，這些詞本身是沒有意義的，認爲是停頓詞，所以這些詞沒必要建立索引的。

倒排索引：根據分詞搜索爬取的完整內容

Map：映射

input document：讀入文檔

Noemalization：全部統一化（同義詞替換、統一大小寫…）

Reduce：摺疊

Key-alue pairs：鍵值對：每個詞出現文檔的編號

final reverse index：倒排索引，數據縮減

3.3.2 ElasticSearch 來源

ElasticSearch的之前是一個叫做Lucene的庫，必要懂一些搜索引擎原理的人才會使用，所有有人基於Lucene進行封裝，就成了今天我們看到的ElasticSearch。
ElasticSearch對搜索引擎的操作都封裝成了restful的api，通過http的請求就能進行搜索操作。

#獲取指定主機上的test索引中_doc類型中的1文檔
curl -XGET '127.0.0.1:9200/test/_doc/1?pretty=true'

3.3.3 ElasticSearch 基本概念

索引、類型、文檔
爲了方便理解與MySQL數據庫中的庫、表、行對應i起來

3.3.4 存儲ElasticSearch數據

比如一首詩，有詩題、作者、朝代、字數、詩內容等字段，那麼首先，我們可以建立一個名叫 Poems 的索引，然後創建一個名叫 Poem 的類型，類型是通過 Mapping 來定義每個字段的類型。

比如詩題、作者、朝代都是 Keyword 類型，詩內容是 Text 類型，而字數是 Integer 類型，最後就是把數據組織成 Json 格式存放進去了。

索引
poems

類型
"poem": {
    "properties": {
        "title": {
            "type":"keyword",
},
        "author":{
   			 "type": "keyword",
},
		"dynasty": {
		    "type": "keyword"
},
		"words": {
  		   "type": "integer"
},
		"content": {
 		   "type": "text"
   }
  }
}

文檔
{
	"title":"靜夜思",
	"author":"李白",
	"dynasty":"唐",
	"words":"20",
    "content":"牀前明月光，疑是地上霜。舉頭望明月，低頭思故鄉。"
}

😶注意：keyword與text的區別


keyword 直接直接建立反向索引
test 先分詞 後建立反向索引

3.4 ElasticSearch 分佈式原理

爲了確保分佈式環境的高可用，ElasticSearch也會對數據進行切分，同時會保存多個副本。

3.4 ElasticSearch數據同步

在 Elasticsearch 中，節點是對等的，節點間會通過自己的一些規則選取集羣的 Master，Master 會負責集羣狀態信息的改變，並同步給其他節點

🙄注意：只有建立索引和類型需要經過 Master，數據的寫入有一個簡單的 Routing 規則，可以 Route 到集羣中的任意節點，所以數據寫入壓力是分散在整個集羣的。

ElasticSearch 總結：

ElasticSearch 在Lucene的基礎上進行封裝，實現了分佈式搜索引擎；
ElasticSearch中數據存在索引、類型和文檔的概念，相當於MySQL中的數據庫、表、行；
ElasticSearch 本身就是集羣高可用應用，所以也存在master-slave架構，實現數據的分片和備份；
ElasticSearch 的典型應用就是ELK的日誌分析系統。

3.5 Logstash

3.5.1 Logstash的簡介

logstash是一個數據分析軟件，主要目的是分析log日誌。整一套軟件可以當作一個MVC模型，logstash是controller層，Elasticsearch是一個model層，kibana是view層。首先將數據傳給logstash，它將數據進行過濾和格式化（轉成JSON格式），然後傳給Elasticsearch進行存儲、建搜索的索引，kibana提供前端的頁面再進行搜索和圖表可視化，它是調用Elasticsearch的接口返回的數據進行可視化。

3.5.1 Logstash的架構

Logstash事件處理管道有三個階段：輸入（input）→過濾器（filter）→輸出（output），輸入生成事件，過濾器修改它們，然後輸出將它們發送到其他地方。輸入和輸出支持編解碼器，使你能夠在數據進入或離開管道時對其進行編碼或解碼，而無需使用單獨的過濾器。

3.5.1.1 Input輸入

將數據收錄到Logstash中，一些比較常用的輸入是：

**- file：**從文件系統上的文件進行讀取，類似於UNIX命令tail -5f file.txt
- syslog: 在端口514上監聽syslog消息並根據RFC3164格式進行解析
- redis: 從redis服務器讀取數據，同時使用Redis通道和Redis列表，Redis通常被用作集中式Logstash安裝中的“broker”，它將從遠程Logstash “shipper”中的Logstash事件排隊
- beats: 處理Beats發送的事件
- stdin： 模塊是用於標準輸入，就是從標準輸入讀取數據

範例:從標準輸入讀取數據

[10:15:42 root@localhost conf.d]#vim  ./test4.conf  
input {
    stdin {
        add_field => {"key" => "value"}
        codec => "plain"
        tags => ["add"]
        type => "std"                                              
    }
}
output {
    stdout {
        codec => rubydebug
    }
}

[10:16:28 root@localhost conf.d]#/usr/share/logstash/bin/logstash -f ./test4.conf 
lulu  #手動輸入
{
          "host" => "localhost.localdomain",
    "@timestamp" => 2020-12-31T02:19:18.620Z,
          "type" => "std",
           "key" => "value",
          "tags" => [
        [0] "add"
    ],
       "message" => "lulu",
      "@version" => "1"
}

3.5.1.2 filter過濾器

過濾器是Logstash管道中的中間處理設備，如果事件過濾器的條件，你可以將過濾器與條件語句組合在一起，對其執行操作，一些常用的過濾器包括：

- grok： 解析和構造任意文本，Grok是目前Logstash中解析非結構化日誌數據到結構化和可查詢數據的最佳方式，內置有120種模式
- mutate： 對事件字段執行一般的轉換，你可以重命名、刪除、替換和修改事件中的字段
- drop： 完全刪除事件，例如debug事件
- clone： 複製事件，可能添加或刪除字段
- geoip： 添加關於IP地址地理位置的信息

範例：GeoIP插件

GeoIP 是最常見的免費 IP 地址歸類查詢庫，同時也有收費版可以採購。GeoIP 庫可以根據 IP 地址提供對應的地域信息，包括國別，省市，經緯度等，對於可視化地圖和區域統計

[20:59:10 root@localhost ~]#cd /etc/logstash/conf.d/

[20:59:29 root@localhost conf.d]#cat test3.conf 
input {
    stdin {
        type => "std"
    }
}
filter {
    geoip {
        source => "message"
    }
}
output{stdout{codec=>rubydebug}}

[21:08:52 root@localhost ~]#/usr/share/logstash/bin/logstash -f  /etc/logstash/conf.d/test3.conf 
183.60.92.253 #手動輸入IP地址進行分析
{
         "geoip" => {
          "country_name" => "China",
              "location" => {
            "lon" => 113.25,
            "lat" => 23.1167
        },
         "country_code2" => "CN",
         "country_code3" => "CN",
              "latitude" => 23.1167,   #緯度
                    "ip" => "183.60.92.253",
        "continent_code" => "AS",
           "region_name" => "Guangdong",
           "region_code" => "GD",
             "longitude" => 113.25,   #經度
              "timezone" => "Asia/Shanghai"
    },
          "host" => "localhost.localdomain",
      "@version" => "1",
          "type" => "std",
       "message" => "183.60.92.253",
    "@timestamp" => 2020-12-30T13:06:41.614Z
}

範例：grok插件

#logstach中自帶grok插件
logstash擁有豐富的filter插件,它們擴展了進入過濾器的原始數據，進行復雜的邏輯處理，甚至可以無中生有的添加新的 logstash 事件到後續的流程中去！Grok 是 Logstash 最重要的插件之一。也是迄今爲止使蹩腳的、無結構的日誌結構化和可查詢的最好方式。Grok在解析 syslog logs、apache and other webserver logs、mysql logs等任意格式的文件上表現完美。

[19:40:42 root@localhost ~]#cd /etc/logstash/conf.d/

#在test2.conf中插入grok插件
[19:41:25 root@localhost conf.d]#vim test2.conf 
input {
    stdin {}
}

filter {
    grok {
        match => {
            "message" => "%{COMBINEDAPACHELOG}  
        }
        remove_field => "message"  #移除message字段信息
    }
} 

output {
    stdout {
        codec => rubydebug
    }
}

[19:49:03 root@localhost conf.d]#/usr/share/logstash/bin/logstash -f  ./test2.conf
10.0.0.18 - - [29/Dec/2020:17:47:56 +0800] "GET /test1.html HTTP/1.1" 200 11 "-" "curl/7.61.1" "-"  #手動輸入nginx訪問信息，因爲該文件加入了grok插件，所以將每個字段詳細分解
{
      "timestamp" => "29/Dec/2020:17:47:56 +0800",
          "agent" => "\"curl/7.61.1\"",
          "bytes" => "11",
           "auth" => "-",
       "clientip" => "10.0.0.18",
           "host" => "localhost.localdomain",
           "verb" => "GET",
     "@timestamp" => 2020-12-29T11:50:18.000Z,
    "httpversion" => "1.1",
       "@version" => "1",
          "ident" => "-",
       "response" => "200",
       "referrer" => "\"-\"",
        "request" => "/test1.html"
}

3.5.1.3 Output 輸出

輸出是Logstash管道的最後階段，事件可以通過多種方式輸出，一旦所有的輸出處理完成，事件就結束了。

- elasticsearch： 發送事件數據到Elasticsearch，如果你打算以一種高效、方便、易於查詢的格式保存數據，那麼使用Elasticsearch是可行的。
- file： 將事件數據寫入磁盤上的文件
- graphite： 將事件數據發送到graphite，這是一種流行的用於存儲和繪製指標的開源工具。
- statsd： 發送事件到statsd，“監聽統計信息（如計數器和計時器）、通過UDP發送聚合並將聚合發送到一個或多個可插拔後端服務”的服務
- stdout： 標準輸出

範例：將日誌統一收集到指定文件種


[10:37:13 root@localhost ~]#cat /etc/logstash/conf.d/test6.conf 
input {
    stdin{
        type => "std"
    }
}

output {
    file {
        path => "/tmp/%{+yyyy}-%{+MM}-%{+dd}-%{host}.log"
        codec => line{format => "%{message}"}
    }
}

[10:40:20 root@localhost conf.d]#/usr/share/logstash/bin/logstash -f ./test6.conf  
...
i love linux  #手動輸入
[INFO ] 2020-12-31 10:38:35.822 [[main]>worker0] file - Closing file /tmp/2020-12-31-localhost.localdomain.log     #手動輸入的內容收集到 /tmp/2020-12-31-localhost.localdomain.log 文件中

#日誌文件內容驗證
[10:38:37 root@localhost ~]#cat /tmp/2020-12-31-localhost.localdomain.log
i love linux

3.5.1.3 Codecs 編解碼器

Codecs可以作爲輸入或輸出的一部分進行操作，Codecs使用戶能夠輕鬆地將消息的傳輸與序列化過程分開，形成input | decode | filter | encode | output 的數據流，流行的codecs包括json、msgpack和plain（text）

範例：

默認情況下，logstash只支持純文本形式的輸入，然後在過濾器filter種將數據加工成指定格式。現在可以在input指定數據類型，全部是因爲有了codecs的設置。

[10:07:54 root@localhost ~]#cat  /etc/logstash/conf.d/test4.conf  
input {
    stdin {
        add_field => {"key" => "value" }
        codec => "json"
        type => "std"
    
    }

}
output {
    stdout {
        codec => rubydebug
    }
}

[09:54:45 root@localhost ~]#/usr/share/logstash/bin/logstash -f 
...
/etc/logstash/conf.d/test4.conf 
{"name":"lulu"}  #手動輸入json格式的鍵值對
{
          "name" => "lulu",
          "host" => "localhost.localdomain",
    "@timestamp" => 2020-12-31T02:06:20.998Z,
           "key" => "value",
      "@version" => "1",
          "type" => "std"
}

3.6 Filebeat

3.6.1 Filebeat的工作流程

當開啓Filebeat程序的時候，它會啓動一個或多個探測器去指定的日誌目錄或文件，對於探測器找出每一個日誌文件，Filebeat會啓動收集進程，每一個收集進程讀取一個日誌文件內容，然後將這些日誌發送到後臺處理程序，後臺處理程序會集合這些事件，最後將集合後的數據發送到output指定的目的地。

Elastic Stack:ELK

文章目錄