ES 常用元素专业术语详解

索引的基本概念:

1、索引(名词):一个 索引 类似关系型数据库中的一个 数据库
2、索引(动词):索引一个文档 就是存储一个文档到一个 索引 (名词)中以便它可以被检索和查询到。这非常类似于 SQL 语句中的 INSERT 关键词,除了文档已存在时新文档会替换旧文档情况之外。
基于倒排索引原则,会给文档建立单独的内存索引,倒排索引主要处理 属性字段的分词
3、倒排索引:关系型数据库通过增加一个 索引 比如一个 B树(B-tree)索引 到指定的列上,以便提升数据检索速度。Elasticsearch 和 Lucene 使用了一个叫做 倒排索引 的结构来达到相同的目的。

索引命名规范:索引名字必须小写,不能以下划线开头,不能包含逗号。

索引必须包含的三大元素:

_index

文档在哪存放,一个 索引 应该是因共同的特性被分组到一起的文档集合。 例如,你可能存储所有的产品在索引 products 中,而存储所有销售的交易到索引 sales 中。

实际上,在 Elasticsearch 中,我们的数据是被存储和索引在 分片 中,而一个索引仅仅是逻辑上的命名空间, 这个命名空间由一个或者多个分片组合在一起。 然而,这是一个内部细节,我们的应用程序根本不应该关心分片,对于应用程序而言,只需知道文档位于一个 索引 内。 Elasticsearch 会处理所有的细节。

_type

文档表示的对象类别,

数据可能在索引中只是松散的组合在一起,但是通常明确定义一些数据中的子分区是很有用的。 例如,所有的产品都放在一个索引中,但是你有许多不同的产品类别,比如 "electronics" 、 "kitchen" 和 "lawn-care"。

这些文档共享一种相同的(或非常相似)的模式:他们有一个标题、描述、产品代码和价格。他们只是正好属于“产品”下的一些子类。

Elasticsearch 公开了一个称为 types (类型)的特性,它允许您在索引中对数据进行逻辑分区。不同 types 的文档可能有不同的字段,但最好能够非常相似。 我们将在 类型和映射 中更多的讨论关于 types 的一些应用和限制。

一个 _type 命名可以是大写或者小写,但是不能以下划线或者句号开头,不应该包含逗号, 并且长度限制为256个字符. 我们使用 blog 作为类型名举例。

_id

文档唯一标识,ID 是一个字符串,当它和 _index 以及 _type 组合就可以唯一确定 Elasticsearch 中的一个文档。 当你创建一个新的文档,可以自定义 _id ,也可以让 Elasticsearch 自动生成,如果不提供_id默认是ES自动生成。

Lucene(鲁C恩):Elasticsearch是一个基于Apache Lucene(TM)的分布式可扩展的实时搜索和分析引擎.
Elasticsearch 在 Lucene 的基础上进行封装,实现了分布式搜索引擎。
Lucene就是个文档库

集群
node:节点,每台计算机是一个节点
shard:主分片,用来存放数据,多分片会对数据进行切割,id 1、3、4 在分片1上,2、3在分片2上。
replica:副本分片,用来对主分片进行数据copy,实现提高查询效率。
Index:在ES 中索引有三层含义
document: 文档

总结:

ES是面向文档的数据库
实时分析的分布式搜索引擎,效率极高
可以扩展到上百台服务器,处理PB级别的结构化或非结构化数据
反向索引又叫倒排索引,是根据文章内容中的关键字建立索引。
搜索引擎原理就是建立反向索引。
Elasticsearch 也是 Master-slave 架构,也实现了数据的分片和备份。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章