splunk VS elasticsearch

本文就架構，功能，產品線，概念等方面就ElasticSearch和Splunk做了一下全方位的對比，希望能夠大家在制定大數據搜索方案的時候有所幫助。

簡介

ElasticSearch （1）（2）是一個基於Lucene的開源搜索服務。它提供了一個分佈式多用戶能力的全文搜索引擎，基於RESTful web接口。Elasticsearch是用Java開發的，並作爲Apache許可條款下的開放源碼發佈，是當前流行的企業級搜索引擎。設計用於雲計算中，能夠達到實時搜索，穩定，可靠，快速，安裝使用方便。

ELK是ElasticSearch，Logstash，Kibana的縮寫，分別提供搜索，數據接入和可視化功能，構成了Elastic的應用棧。

Splunk 是大數據領域第一家在納斯達克上市公司，Splunk提供一個機器數據的引擎。使用 Splunk 可收集、索引和利用所有應用程序、服務器和設備（物理、虛擬和雲中）生成的快速移動型計算機數據。從一個位置搜索並分析所有實時和歷史數據。使用 Splunk 處理計算機數據，可讓您在幾分鐘內（而不是幾個小時或幾天）解決問題和調查安全事件。監視您的端對端基礎結構，避免服務性能降低或中斷。以較低成本滿足合規性要求。關聯並分析跨越多個系統的複雜事件。獲取新層次的運營可見性以及 IT 和業務智能。

根據最新的數據庫引擎排名顯示，Elastic，Solr和Splunk分別佔據了數據庫搜索引擎的前三位。

從趨勢上來看，Elastic和Splunk上升明顯，Elastic更是表現出了非常強勁的勢頭。

基本概念

Elastic

準實時(NRT)
Elasticsearch是一個準實時性的搜索平臺，從數據索引到數據可以被搜索存在一定的時延。
索引（Index）
索引是有共同特性的文檔的集合，索引有自己的名字，可以對索引執行搜索，更新，刪除等操作。
類型（Type）
每個索引可以包含一個或者多個類型，類型可以看作一個索引數據的邏輯分組，通常我們會把擁有相同字段的文檔定義爲同一個類型。
文檔（Document）
文檔是索引信息的基本單元。Elastic中文檔表現爲JSON對象，文檔物理存貯在索引中，並需要被制定一個類型。因爲表現爲JSON，很自然的，文檔是由一個個的字段（Feilds）組成，每個字段是一個名值對（Name Value Pair）
評分（score）
Elastic是基於Lucene構建的，所以搜索的結果會有一個打分。來評價搜索結果和查詢的相關性。

下圖是一個Elastic的搜索在Kibana中看到的例子，原始的數據是一個簡單的日誌文件：

我們通過logstash索引到Elasticsearch後，就可以搜索了。

Splunk

實時性
Splunk同樣是準實時的，Splunk的實時搜索（Realtime Search）可以提供不間斷的搜索結果的數據流。
事件（Event）
對應於Elastic的文檔，Splunk的數據索引的基本單元是事件，每一個事件包含了一組值，字段，時間戳。Splunk的事件可以是一段文本，一個配置文件，一段日誌或者JSON對象。
字段（Fields）
字段是可以被搜索的名值對，不同的事件可能擁有不同的字段。Splunk支持索引時（index time）和搜索時（search time）的字段抽取（fields extraction）
索引（Indexes）
類似Elastic的索引，所有的事件物理存儲在索引上，可以把索引理解爲一個數據庫的表。
知識對象（Knowledge Object）
Splunk的知識對象提供對數據進一步的解釋，分類，增強等功能，包括：字段（fields），字段抽取（fields extraction），事件類型（event type），事務（transaction），查找（lookups），標籤（tags），別名（aliases），數據模型（data model）等等。

下圖是一個Splunk的搜索在Splunk客戶端看到的和前一個例子同樣的日誌數據的搜索結果。

從基本概念上來看，Elasticsearch和Splunk基本一致。從例子中我們可以看到很多的共性，事件／文檔，時間戳，字段，搜索，時間軸圖等等。其中有幾個主要的差別：

Elastic不支持搜索時的字段抽取，也就是說Elastic的文檔中的所有字段在索引時已經固定了，而Splunk支持在搜索時，動態的抽取新的字段
Elastic的搜索是基於評分機制的，搜索的結果有一個打分，而Splunk沒有對搜索結果評分
Splunk的知識對象可以提供對數據更高級，更靈活的管理能力。

用戶接口

ElasticSearch提供REST API來進行

集羣的管理，監控，健康檢查
索引的管理（CURD）
搜索的執行，包括排序，分頁，過濾，腳本，聚合等等高級的搜索功能。

Elasticsearch 本身並沒有提供任何UI的功能，搜索可以用Kibana，但是沒有管理UI還是讓人不爽的，好在開源的好處就是會有很多的開發者來構建缺失的功能：

ElasticHQ
cerebro (推薦，界面乾淨，我喜歡)
dejavu

另一選擇就是安裝X-Pack，這個是要收費的。

Splunk作爲企業軟件，管理及訪問接口比較豐富，除了REST API 和命令行接口，Splunk的UI非常友好易用，基本上所有的功能都能通過集成的UI來使用。同時提供以下接口

REST API
Splunk UI
CLI

功能

數據接入和獲取

Elastic棧使用Logstash和Beats來進行數據的消化和獲取。

Logstash用jruby實現，有點像一個數據管道，把輸入的數據進行處理，變形，過濾，然後輸出到其它地方。Logstash 設計了自己的 DSL，包括有區域，註釋，數據類型(布爾值，字符串，數值，數組，哈希)，條件判斷，字段引用等。

Logstash的數據管道包含三個步驟，Input，Filter和Output，每一步都可以通過plugin來擴展。另外Input和Output還支持配置Codecs，完成對輸入輸出數據的編解碼工作。

Logstash支持的常見的Input包含File，syslog，beats等。Filter中主要完成數據的變形處理，可以增刪改字段，加標籤，等等。作爲一個開源軟件，Output不僅僅支持ElasticSearch，還可以和許多其它軟件集成和目標，Output可以是文件，graphite，數據庫，Nagios，S3，Hadoop等。

在實際運用中，logstash 進程會被分爲兩個不同的角色。運行在應用服務器上的，儘量減輕運行壓力，只做讀取和轉發，這個角色叫做 shipper；運行在獨立服務器上，完成數據解析處理，負責寫入 Elasticsearch 的角色，叫 indexer。

logstash 作爲無狀態的軟件，配合消息隊列系統，可以很輕鬆的做到線性擴展

Beats是 Elastic 從 packetbeat 發展出來的數據收集器系統。beat 收集器可以直接寫入 Elasticsearch，也可以傳輸給 Logstash。其中抽象出來的 libbeat，提供了統一的數據發送方法，輸入配置解析，日誌記錄框架等功能。

開源社區已經貢獻了許多的beats種類。

因爲Beats是使用Golang編寫的，效率上很不錯。

Splunk使用Farwarder和Add-ons來進行數據的消化和獲取。

Splunk內置了對文件，syslog，網絡端口等input的處理。當配置某個節點爲Forwarder的時候，Splunk Forwarder可以作爲一個數據通道把數據發送到配置好的indexer去。這時候，它就類似logstash。這裏一個主要的區別就是對數據字段的抽取，Elastic必須在logstash中通過filter配置或者擴展來做，也就是我們所說的Index time抽取，抽取後不能改變。Splunk支持Index time的抽取，但是更多時候，Splunk 在index time並不抽取而是等到搜索是在決定如何抽取字段。

對於特定領域的數據獲取，Splunk是用Add-on的形式。Splunk 的App市場上有超過600個不同種類的Add-on。

用戶可以通過特定的Add-on或者自己開發Add-on來獲取特定的數據。

對於大數據的數據採集，大家也可以參考我的另一篇博客。

數據管理和存儲

ElasticSearch的數據存貯模型來自於Lucene，基本原理是實用了倒排表。大家可以參考這篇文章。

Splunk的核心同樣是倒排表，推薦大家看這篇去年Splunk Conf上的介紹，Behind the Magnifying Glass: How Search Works

Splunk的Event存在許多Buckets中，多個Buckets構成邏輯分組的索引分佈在Indexer上。

每個Bucket中都是倒排表的結構存儲數據，原始數據通過gzip壓縮。

搜索時，利用Bloom filter定位數據所在的bucket。

在對數據的存儲管理上，Elastic 和Splunk都是利用了倒排表。Splunk對數據進行壓縮，所以存儲空間的佔用要少很多，尤其考慮到大部分數據是文本，壓縮比很高的，當然這會損失一部分性能用於數據的解壓。

數據分析和處理

對數據的處理分析，ElasticSearch主要使用 Search API來實現。而Splunk則提供了非常強大的SPL，相比起ES的Search API，Splunk的SPL要好用很多，可以說SPL就是非結構化數據的SQL。無論是利用SPL來開發分析應用，還是直接在Splunk UI上用SPL來處理數據，SPL都非常易用。開源社區也在試圖爲Elastic增加類似SPL的DSL來改善數據處理的易用性。例如：

https://github.com/chenryn/ESPL

從這篇反饋可以看出，ES的search還有許多的不足。

作爲對此的響應，Elastic推出了painless script，該功能還處於實驗階段。

數據展現和可視化

Kibana是一個針對Elasticsearch的開源分析及可視化平臺，用來搜索、查看交互存儲在Elasticsearch索引中的數據。使用Kibana，可以通過各種圖表進行高級數據分析及展示。

Splunk集成了非常方便的數據可視化和儀表盤功能，對於SPL的結果，可以非常方便的通過UI的簡單設置進行可視化的分析，導出到儀表盤。

下圖的比較來自https://www.itcentralstation.com/products/comparisons/kibana_vs_splunk

在數據可視化的領域的排名，Splunk僅僅落後於Tableau而已

擴展性

從擴展性的角度來看，兩個平臺都擁有非常好的擴展性。

Elastic棧作爲一個開源棧，很容易通過Plugin的方式擴展。包括：

Splunk提供一系列的擴展點支持應用和Add-on的開發，在http://dev.splunk.com/可以找到更多的信息和文檔。包括：

比起Elastic的Plugin，Splunk的擴展概念上比較複雜，開發一個App或者Add-on的門檻都要相對高一些。做爲一個數據平臺，Splunk應該在擴展性上有所改進，使得擴展變的更爲容易和簡單。

架構

Elastic Stack

如上圖所示，ELK是一套棧，Logstash提供數據的消化和獲取，Elasticsearch對數據進行存儲，索引和搜索，而Kibana提供數據可視化和報表的功能。

Splunk

Splunk的架構主要有三個角色：

Indexer
Indexer提供數據的存儲，索引，類似Elasticsearch的作用
Search Head
Search Head負責搜素，客戶接入，從功能上看，一部分是Kibana，因爲Splunk的UI是運行在Search Head上的，提供所有的客戶端和可視化的功能，還有一部分，是提供分佈式的搜索功能，包含對搜索的分發到Indexer和搜索結果的合併，這一部分功能對應在Elasticsearch上。
Forwarder
Splunk的Forwarder負責數據接入，類似Logstash

除了以上的三個主要的角色，Splunk的架構中還有：Deployment Server，License Server，Master Cluster Node，Deployer等。

Splunk和ELK的基本架構非常類似，但是ELK的架構更爲簡單和清楚，Logstash負責數據接入，Kibana負責數據展現，所有的複雜性在Elasticsearch中。Splunk的架構更爲複雜一些，角色的類型也更多一些。

如果裝單機版本，Splunk更容易，因爲所有的功能一次性就裝好了，而ELK則必須分別安裝E/L/K，從這一點上來看，Splunk有一定的優勢。

分佈集羣和擴展性

ElasticSearch

ElasticSearch是爲分佈式設計的，有很好的擴展性，在一個典型的分佈式配置中，每一個節點（node）可以配製成不同的角色，如上圖所示：

Client Node，負責API和數據的訪問的節點，不存儲／處理數據
Data Node，負責數據的存儲和索引
Master Node，管理節點，負責Cluster中的節點的協調，不存儲數據。

每一種角色可以通過ElasticSearch的配置文件或者環境變量來配置。每一種角色都可以很方便的Scale，因爲Elastic採用了對等性的設計，也就是所有的角色是平等的，（Master Node會進行Leader Election，其中有一個是領導者）這樣的設計使得在集羣環境的伸縮性非常好，尤其是在容器環境，例如Docker Swarm或者Kubernetes中使用。

參考：

Splunk

Splunk作爲企業級的分佈式機器數據的平臺，擁有強大的分佈式配置，包括跨數據中心的集羣配置。Splunk提供兩種集羣，Indexer集羣和Search Head集羣。

Splunk Indexer集羣

如上圖所示，Splunk的indexer集羣主要由三種角色：

Master Node，Master Node負責管理和協調整個的集羣，類似ES的Master。但是隻有一個節點，不支持多Master（最新版本6.6）。Master Node負責
- 協調Peer Node之間的數據複製
- 告訴Search Head數據在哪裏
- Peer Node的配置管理
- Peer Node故障時的故障恢復
Peer Nodes，負責數據索引，類似ES的Data Node，Peer Node負責
- 存儲索引數據
- 發送／接收復制數據到其他Peer節點
- 響應搜索請求
Search Head，負責數據的搜索和客戶端API訪問，類似ES的Client Node，但不完全相同。Search Head負責發送搜索請求到Peer Nodes，並對搜索的結果進行合併。

有人會問，那Master是不是集羣中的單點故障？What if Master node goes down？Splunk的回答是否。即使Master 節點出現故障，Peer Nodes仍然可以正常工作，除非，同時有Peer Node出現故障。

Splunk Search Header 集羣

Search Head集羣是由一組Search Head組成，它們共享配置，搜索任務等狀態。該Cluster主要有以下角色：

Deployer，負責分發狀態和應用到peers
Cluster Member，其中有一個是Captain，負責協調。Cluster Memeber之間會互相通信，來保證狀態一致。Load Balancer是個可選項，可以負責Search的接入。
Search Peers，負責數據索引的 Indexer Nodes

另外Splunk還曾經提供過一個功能叫做Search Head Pooling，不過現在已經Depecated了。

Indexer集羣可以和Search Head集羣一起配置，構成一個分佈式的Splunk配置。

相比較ES的相對比較簡單的集羣配置，Splunk的集羣配置比較複雜，ES中所有每一個節點可以靈活的配置角色，並且可以相對比較容易的擴展，利用例如Kubernetes的Pod的複製可以很容易的擴展每一個角色。擴展Splunk相對比較困難，要做到動態的伸縮，需要比較複雜的配置。大家可以參考這裏，在容器環境裏配置一個Splunk的集羣需要比較多的佈置，例如在這個Master的配置中，用戶需要考慮：

如何配置License
修改缺省的用戶名口令
爲每一個Search Head配置Search Head Cluster
等待Splunk進程成功啓動
配置業務發現
安裝應用
… …

並且集羣的擴展很難直接利用容器編排平臺提供的擴展接口，這一點Splunk還有很多提高的空間。

產品線

Elastic

Elastic的產品線除了大家熟悉的ELK（ElasticSearch，Logstash，Kikana），主要包含

Beats Beats是一個開源組件，提供一個代理，把本地抓到的數據傳送到ElasticSearch
Elastic Cloud， Elasti提供的雲服務
X-Pack， Elastic的擴展組件，提供安全，告警，監控，機器學習和圖處理能力。主要功能需要付費使用。

Splunk

Splunk的產品線包括

Splunk Enterprise
Splunk Cloud， Splunk運營的雲服務，跑在AWS上
Splunk Light，Splunk Light版本，功能有所精簡，面向中小企業
Hunk， Splunk on Hadoop
Apps ／ Add-ons, Splunk提供大量的應用和數據獲取的擴展，可以參考 http://apps.splunk.com/
Splunk ITSI （IT Service Intelligence）， Splunk爲IT運維專門開發的產品
Splunk ES （Enterprise Security）， Splunk爲企業安全開發的產品，這個是Splunk 公司的拳頭產品，連續被Gartner評爲SIEM領域的領導者，挑戰了該行業的傳統巨鱷IBM，HP
Splunk UBA （User Behavior Analytic）， UBA是Splunk在15年收購的Caspidia帶來的基於機器學習的安全產品。

從產品線的角度來看，Splunk除了提供基本平臺，在IT運維和安全領域都有自己的拳頭產品。Elastic缺乏某個領域的應用。

價格

價格是大家非常關心的一個因素

Elastic的基本組件都是開源的，參看下表，X-pack中的一些高級功能需要付費使用。包含安全，多集羣，報表，監控等等。

雲服務的價格參考下圖，ES的雲是按照所使用的資源來收費，從這裏選取的區域可以看出，ES的雲也是運行在AWS上的。下圖中的配置每月需要花費200美元左右。（不同區域的收費不同）

同時，除了Elastic自己，還有許多其他公司也提供Elastic Search的雲服務，例如Bonsai，Qbox.io等。

Splunk

Splunk Enterprise是按照數據每日的流量按年或者無限制事件付費，每天1GB的話，每年是2700美元，每個月也是差不多200塊。如果每天的數據量少於500M，可以使用Splunk提供的免費License，只是不能用安全，分佈式等高級功能，500M可以做很多事情了。

雲服務的價格就要便宜多了，每天5GB，每年只要2430元，每個月不到200塊。當然因爲計費的方式不同，和Elastic的雲就不好比較了。另外因爲是在AWS上，中國的用戶，呵呵了。

總結

大數據的搜索平臺已經成爲了衆多企業的標配，Elastic棧和Splunk是其中最爲優秀和流行的選擇。兩者都有各自的優點和值得改進的地方。希望本文能夠在你的大數據平臺的選型上，有所幫助。也希望大家來和我交流，共同成長。

參考文檔

ELK

ElasticSearch 參考文檔https://www.elastic.co/guide/en/elasticsearch/reference/current/index.html
Github上收集的ElasticSearch相關開源軟件列表 https://github.com/dzharii/awesome-elasticsearch
知乎ElaticSearch專題 https://www.zhihu.com/topic/19899427/hot
中文書 https://github.com/chenryn/ELKstack-guide-cn
中文書 https://www.gitbook.com/book/wizardforcel/mastering-elasticsearch/details

Splunk

Splunk 文檔 https://docs.splunk.com/Documentation
Splunk電子書 https://www.splunk.com/web_assets/v5/book/Exploring_Splunk.pdf
Splunk 開發文檔 http://dev.splunk.com/getstarted
Splunk 應用市場 http://apps.splunk.com/
Splunk 快速參考 https://www.splunk.com/content/dam/splunk2/pdfs/solution-guides/splunk-quick-reference-guide.pdf

其它

splunk VS elasticsearch

簡介

基本概念

用戶接口

功能

數據接入和獲取

數據管理和存儲

數據分析和處理

數據展現和可視化

擴展性

架構

分佈集羣和擴展性

產品線

價格

總結

參考文檔

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

企業大模型如何成爲自己數據的“百科全書”？

本地SSL證書過期輸入命令在IIS自動生成

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（二）使用kube-vip實現集羣VIP訪問

.NET週刊【5月第2期 2024-05-12】

haproxy詳細介紹

redis分片

MogileFS與FastDFS的見解

splunk VS elasticsearch

十分鐘帶你理解Kubernetes核心概念

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結