Elasticsearch 學習第6篇——Elasticsearch原理

原創

水晶果冻1125

2020-07-01 09:08

小史是一個非科班的程序員，雖然學的是電子專業，但是通過自己的努力成功通過了面試，現在要開始迎接新生活了。

隨着央視詩詞大會的熱播，小史開始對詩詞感興趣，最喜歡的就是飛花令的環節。

但是由於小史很久沒有背過詩詞了，飛一個字很難說出一句，很多之前很熟悉的詩句也想不起來。

倒排索引

呂老師：但是我讓你說出帶“前”字的詩句，由於沒有索引，你只能遍歷腦海中所有詩詞，當你的腦海中詩詞量大的時候，就很難在短時間內得到結果了。

索引量爆炸

搜索引擎原理

Elasticsearch 簡介

呂老師：但是 Lucene 還是一個庫，必須要懂一點搜索引擎原理的人才能用的好，所以後來又有人基於 Lucene 進行封裝，寫出了 Elasticsearch。

Elasticsearch 基本概念

呂老師：類型是用來定義數據結構的，你可以認爲是 MySQL 中的一張表。文檔就是最終的數據了，你可以認爲一個文檔就是一條記錄。

呂老師：比如一首詩，有詩題、作者、朝代、字數、詩內容等字段，那麼首先，我們可以建立一個名叫 Poems 的索引，然後創建一個名叫 Poem 的類型，類型是通過 Mapping 來定義每個字段的類型。

比如詩題、作者、朝代都是 Keyword 類型，詩內容是 Text 類型，而字數是 Integer 類型，最後就是把數據組織成 Json 格式存放進去了。

呂老師：這個問題問得好，這涉及到分詞的問題，Keyword 類型是不會分詞的，直接根據字符串內容建立反向索引，Text 類型在存入 Elasticsearch 的時候，會先分詞，然後根據分詞後的內容建立反向索引。

呂老師：之前我們說過，Elasticsearch 把操作都封裝成了 HTTP 的 API，我們只要給 Elasticsearch 發送 HTTP 請求就行。

比如使用 curl -XPUT 'http://ip:port/poems'，就能建立一個名爲 Poems 的索引，其他操作也是類似的。

Elasticsearch 分佈式原理

呂老師：沒錯，Elasticsearch 也是會對數據進行切分，同時每一個分片會保存多個副本，其原因和 HDFS 是一樣的，都是爲了保證分佈式環境下的高可用。

呂老師：沒錯，在 Elasticsearch 中，節點是對等的，節點間會通過自己的一些規則選取集羣的 Master，Master 會負責集羣狀態信息的改變，並同步給其他節點。

呂老師：注意，只有建立索引和類型需要經過 Master，數據的寫入有一個簡單的 Routing 規則，可以 Route 到集羣中的任意節點，所以數據寫入壓力是分散在整個集羣的。

ELK 系統

呂老師：其實很多公司都用 Elasticsearch 搭建 ELK 系統，也就是日誌分析系統。其中 E 就是 Elasticsearch，L 是 Logstash，是一個日誌收集系統，K 是 Kibana，是一個數據可視化平臺。

呂老師：分析日誌的用處可大了，你想，假如一個分佈式系統有 1000 臺機器，系統出現故障時，我要看下日誌，還得一臺一臺登錄上去查看，是不是非常麻煩？

呂老師：但是如果日誌接入了 ELK 系統就不一樣。比如系統運行過程中，突然出現了異常，在日誌中就能及時反饋，日誌進入 ELK 系統中，我們直接在 Kibana 就能看到日誌情況。如果再接入一些實時計算模塊，還能做實時報警功能。

總結

小史學完了 Elasticsearch，在筆記本上寫下了如下記錄：

反向索引又叫倒排索引，是根據文章內容中的關鍵字建立索引。
搜索引擎原理就是建立反向索引。
Elasticsearch 在 Lucene 的基礎上進行封裝，實現了分佈式搜索引擎。
Elasticsearch 中的索引、類型和文檔的概念比較重要，類似於 MySQL 中的數據庫、表和行。
Elasticsearch 也是 Master-slave 架構，也實現了數據的分片和備份。
Elasticsearch 一個典型應用就是 ELK 日誌分析系統。

寫完，又高高興興背詩去了。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

基於Flink和Drools的實時日誌處理

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！背景日誌系統接入的日誌種類多、格式複雜多樣，主流的有以下幾種日誌： Filebeat採集到的文本日誌，格式多樣 Winbeat採集到的

雲棲號資訊小哥

2020-07-10 16:13:52

如何預防 Elasticsearch 服務器入侵事件的發生

如果您身在技術圈，很可能在某個時刻已經正面遭遇過“服務器入侵”。即使您身處圈外，也可能會對致使私密個人數據最終落入不法之手的服務器/數據入侵和安全漏洞有所耳聞。此類數據可能包括信用信息、社會安全號碼，以及其他您想要保密且不希望落入

2020-07-08 06:52:10

ES的Query、Filter、Metric、Bucketing使用詳解

https://www.cnblogs.com/sunsky303/p/9443013.html 由於筆者在實際項目僅僅將ES用作索引數據庫，並沒有深入研究過ES的搜索功能。而且鑑於筆者的搜索引擎知識有限，本文將僅僅介紹ES簡單（非全

2020-07-08 05:50:47

Elasticsearch：ES 倒排索引爲什麼查詢速度會這麼快

https://www.jianshu.com/p/addefe15f3e9 0. 前言 Elasticsearch 是一個分佈式可擴展的實時搜索和分析引擎，它建立在全文搜索引擎 Apache Lucene™ 的基礎上。Elastic

2020-07-08 05:50:47

Elasticsearch入門必備——ES中的字段類型以及常用屬性

https://www.cnblogs.com/xing901022/p/5471419.html 字段中的索引和存儲其中需要說明的是： index定義字段的分析類型以及檢索方式如果是no，則無法通過檢索查詢到該字段；如果設置爲

2020-07-08 05:50:47

ElasticSearch那些事兒（一）

目錄一、簡介二、下載並運行ElasticSearch 三、在Windows上運行ElasticSearch 四、在docker上運行ElasticSearch Elasticsearch 是一個實時的分佈式搜索分析引擎，它能讓你以一

2020-07-08 01:45:20

認識Elasticsearch

一、概述簡介 Elasticsearch 是一個分佈式、RESTful 風格的搜索和數據分析引擎。它是基於Apache Lucene開發的，開發語言爲Java，使用Apache 開源協議進行開源。Elasticsearch的特點

爱做梦的锤子

2020-07-07 23:22:40

Elasticsearch基礎——概念和基本API操作

Elasticsearch 版本爲 7.1.0 ，本文的講解都是基於該版本文章中Elasticsearch將使用簡稱ES代替一、基本概念文檔——Document ES是面向文檔的搜索，文檔是ES所有可搜索數據的最小單元。

爱做梦的锤子

2020-07-07 23:22:40

ES特定場景性能優化

1. Overview 本文主要介紹一下Elasticsearch（後文簡稱ES）做相關基準測試的流程，及分享一些我們做過的一些測試結論。簡要說明下我們使用情況：寬表的用戶畫像OLAP分析場景，集羣規模200節點，數據量30T

2020-07-07 18:10:00

elasticsearch中IK分詞處理

嗯，弄完ANSJ分詞，今天上IK分詞。這裏elasticsearch是2.3.1，對應的IK爲1.9.1。 1.到https://github.com/medcl/elasticsearch-analysis-ik/releases?a

2020-07-07 11:21:08

elasticsearch分組並獲得分組裏面的結果 group_concat

GET /test_index/_search { "size": 0, "query": { "match_phrase": { "legalpersonname": "李斌" //搜索名稱爲李斌

2020-07-07 08:54:12

Redis之基礎知識總結

Redis之基礎知識總結一、支持的基本的數據類型 1.1. 五大數據類型 Redis有5個基本數據結構，string、list、hash、set和zset。它們是日常開發中使用頻率非常高應用最爲廣泛的數據結構， String

易水墨龙吟

2020-07-08 06:13:15

電到底是怎麼工作的？

生活在電子信息時代，生活中無處不充滿着電。現在人們對電了依賴相信比以前石油還要多。如果突然之間沒有了電，手機沒用了，網絡也沒了，衛星也沒了，我們又回到瞭解放前。只能靠着蠟燭或者煤油燈照明，連文件傳輸都不行。對於電器工程師來說，最大的成就就

2020-07-07 11:18:40

【原理+實現】鏈路追蹤系統原理與開源實現

鏈路追蹤的原理鏈路追蹤的規範 OpenTracing Dubbo微服務實現鏈路追蹤的原理設計按照Open Tracing規範設計鏈路數據存儲結構分佈式TraceID生成開發mvc層監控、dubbo層監控、MySQL層或My

2020-07-07 04:12:45

【原理】單例模式

使用場景：線程池對象實現： 1、餓漢式 2、懶漢式 -> synchronized鎖 3、靜態內部類實現延遲初始化 -> 靜態內部類特性 4、枚舉 -> Effective Java 5、雙重檢查鎖+volatile -> 指令重排序問

2020-07-07 04:12:44

24小時熱門文章

最新文章

最新評論文章