極客學習——倒排索引、Analyzer分詞

原創

小郑小郑为人端正

2019-10-25 21:08

倒排索引的核心組成

單詞詞典：記錄所有文檔的單詞，記錄單詞到倒排列表的關聯關係
倒排列表記錄了單詞對應的文檔組合，由倒排索引項組成
倒排索引項：

文檔ID
詞頻TF ：該單詞在文檔中出現的次數，用於相關性評分
位置：單詞在文檔中分詞的位置，用於語句搜索
偏移：記錄單詞的開始結束位置，實現高亮顯示

elasticsearch的json文檔中的每個字段，都有自己的倒排索引；可以指定對某些字段不做索引，可節省存儲空間，但字段無法被搜索。

Analysis

Analysis :文本分析是把全文本轉換成一系列單詞（term/token）的過程，也叫分詞
Analysis是通過Analyzer（分詞器）來實現的。es有內置的分析器，也可以自定製分析器
除了在數據寫入時轉換詞條，匹配Query語句時也需要用相同的分析器對查詢語句進行分析。

Analyzer的組成

character filters：針對原始文本處理
tokenizer：按照規則將文本切分爲單詞
token filter：將切分的單詞進行加工、轉爲小寫、刪除stopwords、增加同義詞

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

es索引命令

es常用命令文章目錄es常用命令1.索引管理1.1創建索引1.2刪除索引1.3獲取索引1.4修改索引1.5打開或關閉索引2.索引映射管理2.1增加映射2.2獲取映射3.索引別名3.1增加別名3.2刪除別名3.3過濾索引別名4.索

2020-06-25 06:47:45

es搜索命令

es常用命令文章目錄es常用命令1.搜索1.1term filter/query搜索1.2基於bool組合多個filter搜索1.3range範圍過濾1.4全文檢索1.4.1或1.4.2且1.4.3百分比控制搜素精度1.5dis

2020-06-25 06:47:45

二、Elasticsearch核心概念

1、lucene和elasticsearch的前世今生 2、Elasticsearch的核心概念 3、elasticsearch核心概念 vs. 數據庫核心概念 1、lucene和elasticsearch的前世今生（1）lucene最

2020-06-24 05:52:33

Kibana discover如何顯示符合要求的時間格式

1.需求說明索引中有兩個字段 @timestamp 和 message_date, 希望 @timestamp 顯示的時間格式爲:YYYY-MM-DDTHH:mm:ss.SSSZ, message_date 顯示的格式爲YYYY

2020-06-19 10:39:32

es/kibana配置 TLS/SSL

1 生成證書 elasticsearch-cert 使用 pem 生成根證書 /usr/share/elasticsearch/bin/elasticsearch-certutil ca --days 720 --pem

2020-06-19 10:39:32

Elasticsearch相關性反饋

1.相關性常用手段相關性排名引導用戶選擇更好的搜索查詢、向用戶推薦其他相關搜索通過拼寫檢查糾正用戶的搜索錯誤突出顯示文檔之所以對用戶而言有相關性的原因向用戶解釋搜索的過程允許用戶從結果集中過濾掉無關內容 2.搜索框相關性反饋

2020-06-16 14:33:42

elasticsearch v5.x 常用http接口

可以使用 postman http交互工具操作集羣 http://127.0.0.1:9200/_cluster/state http://127.0.0.1:9200/_cluster/health http://127.0

2020-06-09 15:45:13

Intellij Idea 運行Elasticsearch源碼 v6.0.0

一、環境 OS：windows 10 IntelliJ IDEA 2018.2.1 (Ultimate Edition) elasticsearch 源碼：git clone https://github.com/elastic/

2020-06-09 15:45:13

Elasticsearch 的安裝與使用（三）: python操作Elasticsearch增刪改查

1.python鏈接ES： from elasticsearch import Elasticsearch self.es = Elasticsearch([{'host': "192.168.1.88", 'port': 9

北房有佳人

2020-06-06 17:36:32

Elasticsearch學習（零）——安裝與基本操作

2020-06-03 14:07:37

Elasticsearch第二篇：es之間版本比較

ChengHuanHuaning

2020-05-07 18:41:56

Elasticsearch第一篇：基本介紹(入門必看系列)

ChengHuanHuaning

2020-05-07 18:41:56

es核心概念介紹

2020-03-23 10:04:39

Elasticsearch Java HighLevel REST Client（Search API）

2020-03-12 18:36:35

一、什麼是ElasticSearch

2020-02-24 09:33:03

24小時熱門文章

Wireshark 安裝+使用（一）

最新文章

最新評論文章