Elasticsearch-01.初识Elasticsearch

本系列博客基于Elasticsearch 7.0进行编写，旨在对自己的所学进行结构化输出，查漏补缺。

什么是Elasticsearch

Elasticsearch是一个搜索、存储和数据分析引擎，具有分布式、高性能、高可用、可伸缩、易维护的特点。

Elasticsearch并非从零起步，而是站在巨人的肩膀上。Elasticsearch基于Java编写，其内部使用Lucene做索引与搜索。通过进一步封装Lucene，向开发人员屏蔽了Lucene的复杂性。开发人员无须深入了解检索的相关知识来理解它是如何工作的，只需使用一套简单一致的RESTfulAPI即可，从此全文搜索变得简单。

传统关系型数据库的弊端

基于Like的查询会造成索引失效，查询时间复杂度O(n)。

Lucene的弊端

Lucene虽然提供了倒排索引的功能，但是本身只支持单点。如果需要搭建集群，需要自行实现集群管理与负载均衡。同时，Lucene提供的API比Elasticsearch复杂的多。

Elasticsearch优点

面向开发者友好，零配置，易装易用。
ES基于Lucene提供了很多高级功能：复合查询、聚合分析、基于地理位置等。
相遇传统数据库，提供了全文检索，同义词处理（美丽的cls>漂亮的cls），相关度排名。聚合分析以及海量数据的近实时（NTR）处理，这些传统数据库完全做不到。
实时分析的分布式搜索引擎。Elasticsearch的索引分拆成多个分片，每个分片可以有零个或多个副本。集群中的每个数据节点都可承载一个或多个分片，并且协调和处理各种操作；负载再平衡和路由会自动完成。
高可拓展性。大规模应用方面，Elasticsearch可以扩展到上百台服务器，处理PB级别的结构化或非结构化数据。
可插拔插件支持。Elasticsearch支持多种插件，如分词插件、同步插件、Hadoop插件、可视化插件等。

常用应用领域

全文检索、搜索推荐。
用户行为日志
Business Intelligence, Data Analysis.

核心概念

Elasticsearch的核心概念有Node、Cluster、Shards、Replicas、Index、Type、Document、Settings、Mapping和Analyzer。

Node 节点

节点是组成Elasticsearch集群的基本服务单元，集群中的每个运行中的Elasticsearch服务器都可称之为节点。

在Elasticsearch集群中，节点有三种状态。

Green：表示节点运行状态为健康状态。所有的主分片和副本分片都可以正常工作，集群100%健康。
Yellow：黄色，表示节点的运行状态为预警状态。所有的主分片都可以正常工作，但至少有一个副本分片是不能正常工作的。此时集群依然可以正常工作，但集群的高可用性在某种程度上被弱化。
Red：红色，表示集群无法正常使用。此时，集群中至少有一个分片的主分片及它的全部副本分片都不可正常工作。虽然集群的查询操作还可以进行，但是也只能返回部分数据（其他正常分片的数据可以返回），而分配到这个有问题分片上的写入请求将会报错，最终导致数据丢失。

Cluster 集群

Elasticsearch的集群是由具有相同 cluster.name（默认值为elasticsearch）的一个或多个Elasticsearch节点组成的，各个节点协同工作，共享数据。同一个集群内节点的名字不能重复，但集群名称一定要相同。在实际使用Elasticsearch集群时，一般需要给集群起一个合适的名字来替代cluster.name的默认值。自定义集群名称的好处是，可以防止一个新启动的节点加入相同网络中的另一个同名的集群中。

Shards 分片

当索引的数据量太大时，受限於单个节点的内存、磁盘处理能力等，节点无法足够快地响应客户端的请求，此时需要将一个索引上的数据进行水平拆分。拆分出来的每个数据部分称之为一个分片。一般来说，每个分片都会放到不同的服务器上。进行分片操作之后，索引在规模上进行扩大，性能上也随之水涨船高的有了提升。Elasticsearch依赖Lucene，Elasticsearch中的每个分片其实都是Lucene中的一个索引文件，因此每个分片必须有一个主分片和零到多个副本分片。当软件开发人员在一个设置有多分片的索引中写入数据时，是通过路由来确定具体写入哪个分片中的，因此在创建索引时需要指定分片的数量，并且分片的数量一旦确定就不能更改。当软件开发人员在查询索引时，需要在索引对应的多个分片上进行查询。Elasticsearch会把查询发送给每个相关的分片，并汇总各个分片的查询结果。对上层的应用程序而言，分片是透明的，即应用程序并不知道分片的存在。在Elasticsearch中，默认为一个索引创建5个主分片，并分别为每个主分片创建一个副本。

Replicas 备份/副本

副本指的是对主分片的备份，这种备份是精确复制模式。每个主分片可以有零个或多个副本，主分片和备份分片都可以对外提供数据查询服务。当构建索引进行写入操作时，首先在主分片上完成数据的索引，然后数据会从主分片分发到备份分片上进行索引。当主分片不可用时，Elasticsearch会在备份分片中选举出一个分片作为主分片，从而避免数据丢失。一方面，备份分片既可以提升Elasticsearch系统的高可用性能，又可以提升搜索时的并发性能；另一方面，备份分片也是一把双刃剑，即如果备份分片数量设置得太多，则在写操作时会增加数据同步的负担。

Index 索引

在Elasticsearch中，索引由一个和多个分片组成。在使用索引时，需要通过索引名称在集群内进行唯一标识。

Type 类别

类别指的是索引内部的逻辑分区，通过Type的名字在索引内进行唯一标识。在查询时如果没有该值，则表示需要在整个索引中查询。

Document 文档

索引中的每一条数据叫作一个文档，与关系数据库的使用方法类似，一条文档数据通过_id在Type内进行唯一标识。

Settings

Settings是对集群中索引的定义信息，比如一个索引默认的分片数、副本数等。

Mapping

Mapping表示中保存了定义索引中字段（Field）的存储类型、分词方式、是否存储等信息，有点类似于关系数据库（如MySQL）中的表结构信息。在Elasticsearch中，Mapping是可以动态识别的。如果没有特殊需求，则不需要手动创建Mapping，因为Elasticsearch会根据数据格式自动识别它的类型。当需要对某些字段添加特殊属性时，如定义使用其他分词器、是否分词、是否存储等，就需要手动设置Mapping了。一个索引的Mapping一旦创建，若已经存储了数据，就不可修改了。

Analyzer 分词器

一个Analyzer通常由一个Tokenizer和零到多个Filter组成。在Elasticsearch中，默认的标准Analyzer包含一个标准的Tokenizer和三个Filter，即Standard Token Filter、Lower Case Token Filter和Stop TokenFilter。

参考资料

[1] feintkotlin.两分钟带你认识倒排索引.https://www.bilibili.com/video/BV1db411g79H