（二）elasticsearch之入門介紹

原創

2020-06-19 09:13

一、Document

1、相當於JSON Object，由字段（Field）組成，常見數據類型如下：

字符串：text、keyword
數值型：long、integer、short、byte、double、float、half_float、scaled_float
布爾型：boolean
日期型：date
二進制：binary
範圍類型：integer_range、float_range、long_range、double_range、date_range

2、元數據，用於標註文檔的相關信息

_index：文檔所在的索引名
_type：文檔所在的類型名
_id：文檔唯一id，可自行指定，如不指定，則自動生成（Strings.base64UUID()）
_uid：組合id，由 _id 和 _type組成（6.x _type不再起作用，同 _id 一樣）
_source：文檔的原始json 數據
_all：整合所有字段內容到該字段，默認禁用

二、倒排索引

1、介紹

單詞到文檔id 的關係。
倒排索引是搜索引擎的核心，主要包含2部分：單詞詞典和倒排列表

2、單詞詞典

記錄所有文檔的單詞，一般比較大
記錄單詞到倒排列表的關聯信息
單詞字典的一般實現是 B+ Tree

3、倒排列表（position list）

倒排列表記錄了單詞對應的文檔集合，由倒排索引項組成
倒排索引項 主要包含如下信息：
- 文檔id，用於獲取原始信息
- 單詞頻率（TF， term frequency），記錄該單詞在文檔中出現的次數，用於後續相關性算分
- 位置（position），記錄單詞在文檔中的分詞位置，用於做詞語搜索
- 偏移（offset），記錄單詞在文檔的開始和結束位置，用於做高亮顯示

舉例：

注：

es存儲的是一個json格式的文檔，其中包含多個字段，每個字段都會有自己的倒排索引。

文檔如下：
{
    "name": "haha",
    "job": "java"
}
此時，es會有2個倒排索引，一個是 name 倒排索引，一個是 job 倒排索引。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

日誌架構演進：從集中式到分佈式的Kubernetes日誌策略

當我們沒有使用雲原生方案部署應用時採用的日誌方案往往是 ELK 技術棧。這套技術方案比較成熟，穩定性也很高，所以幾乎成爲了當時的標配。可是隨着我們使用 kubernetes 步入雲原生的時代後， kubernetes 把以往的操作系統

2024-04-23 11:47:10

架構設計｜基於 raft-listener 實現實時同步的主備集羣

背景以及需求線上業務對數據庫可用性可靠性要求較高，要求需要有雙 AZ 的主備容災機制。主備集羣要求數據和 schema 信息實時同步，數據同步平均時延要求在 1s 之內，p99 要求在 2s 之內。主備集羣數據要求一致要求能夠在主

2024-04-18 01:07:18

更優性能與性價比，從自建 ELK 遷移到 SLS 開始

作者：荊磊背景 ELK (Elasticsearch、Logstash、Kibana) 是當下開源領域主流的日誌解決方案，在可觀測場景下有比較廣泛的應用。隨着數字化進程加速，機器數據日誌增加，自建 ELK 在面臨大規模數據、查詢性能等方

2024-04-15 21:12:22

美團外賣基於GPU的向量檢索系統實踐

到家搜索業務具有數據量大、過濾比高等特點，爲了在保證高召回率的同時進一步提高檢索性能，美團到家搜索技術團隊與基礎研發機器學習平臺團隊基於GPU實現了支持向量+標量混合檢索的通用檢索系統，召回率與檢索性能均有較大提升。本文將介紹我們在GPU

2024-04-12 21:15:18

高維解碼｜Redis 收緊許可證！開源軟件公司如何在雲時代生存？

最近，Redis 從開放源代碼的 BSD 許可證過渡到了更加限制性的 Server Side Public License (SSPLv1)。一石激起千層浪，Redis 的這一舉動，不僅分化了前 Redis 維護者，也再次引發業界對於“開

2024-04-08 21:20:20

甲方安全建設之日誌採集實操乾貨

前言沒有永遠的安全，如何在被攻擊的情況下，快速響應和快速溯源分析攻擊動作是個重要的話題。想要分析攻擊者做了什麼、怎麼攻擊進來的、還攻擊了誰，那麼日誌是必不可少的一項，因此我們需要儘可能採集多的日誌來進行分析攻擊者的動作，甚至在攻擊者剛落

2024-04-07 22:46:03

elasticsearch 監控查看活躍的search

GET _nodes/stats indexing 顯示已經索引了多少文檔。這個值是一個累加計數器。在文檔被刪除的時候，數值不會下降。還要注意的是，在發生內部索引操作的時候，這個值也會增加，比如說文檔更新。還列出了索引操作耗費

2024-04-07 13:07:02

阿里雲PAI大模型RAG對話系統最佳實踐

去年4月至9月，阿里雲人工智能平臺 PAI 團隊與大數據基礎工程技術團隊合作，構建了基於知識庫檢索增強的大模型答疑對話機器人，並在阿里雲官方答疑鏈路、研發小蜜、釘釘大數據技術服務助手等多個線上場景上線，顯著提升答疑效率。相關文檔：【萬字長文

2024-03-15 00:43:34

KubeSphere 社區雙週報｜2024.02.29-03.14

KubeSphere 社區雙週報主要整理展示新增的貢獻者名單和證書、新增的講師證書以及兩週內提交過 commit 的貢獻者，並對近期重要的 PR 進行解析，同時還包含了線上/線下活動和佈道推廣等一系列社區動態。本次雙週報涵蓋時間爲：202

2024-03-14 23:29:59

日誌服務 SLS 深度解析：擁抱雲原生和 AI，基於 SLS 的可觀測分析創新

10 月 31 日，杭州雲棲大會上，日誌服務 SLS 研發負責人簡志和產品經理孟威等發表了《日誌服務 SLS 深度解析：擁抱雲原生和 AI，基於 SLS 的可觀測分析創新》的主題演講，對阿里雲日誌服務 SLS 產品服務創新以及背後的技術積累

2023-12-15 01:19:01

雲原生網關可觀測性綜合實踐

作者：鈺誠可觀測性可觀測性（Observability）是指系統、應用程序或服務的運行狀態、性能和行爲能夠被有效地監測、理解和調試的能力。隨着系統架構從單體架構到集羣架構再到微服務架構的演進，業務越來越龐大，也越來越複雜。雲原生時代背

2023-10-11 21:14:40

經緯恆潤重磅推出第七代前視單目攝像頭控制器

隨着L2+自動駕駛功能的普及，整車架構的升級，以及越來越高的法規要求，ADAS產品的開發迎來了更高的挑戰：一方面，需要提高ADAS產品的整車性能，以應對更多的使用場景；另一方面，需要考慮ADAS的綜合成本，以應對量產壓力。據相

2023-09-05 11:11:12

centos7 搭建elasticsearch8.8.1

1、下載官網：https://www.elastic.co/cn/downloads/elasticsearch 華爲鏡像：https://mirrors.huaweicloud.com/elasticsearch/ 官

2023-08-19 09:20:45

基於ClickHouse解決活動海量數據問題 | 京東雲技術團隊

1、背景魔笛活動平臺要記錄每個活動的用戶行爲數據，幫助客服、運營、產品、研發等快速處理客訴、解決線上問題並進行相關數據分析和報警。可以預見到需要存儲和分析海量數據，預估至少幾十億甚至上百億的數據量，所以需要選擇一款能存儲海量數據的數據庫

2023-07-17 11:56:35

分佈式數據庫 Join 查詢設計與實現淺析 | 京東雲技術團隊

相對於單例數據庫的查詢操作，分佈式數據查詢會有很多技術難題。本文記錄 Mysql 分庫分表和 Elasticsearch Join 查詢的實現思路，瞭解分佈式場景數據處理的設計方案。文章從常用的關係型數據庫 MySQL 的分庫分表J

2023-06-09 11:50:38

24小時熱門文章

最新文章

最新評論文章