Elasticsearch 筆記倒排索引 keyword 和 text

原創

2019-03-20 03:49

1.倒排索引(Inverted Index)：倒排索引是實現“單詞-文檔矩陣”的一種具體存儲形式，通過倒排索引，可以根據單詞快速獲取包含這個單詞的文檔列表。倒排索引主要由兩個部分組成：“單詞詞典”和“倒排文件”。

原文：http://www.cnblogs.com/zlslch/p/6440114.html

總結

單詞ID：記錄每個單詞的單詞編號；
單詞：對應的單詞；
文檔頻率：代表文檔集合中有多少個文檔包含某個單詞
倒排列表：包含單詞ID及其他必要信息
DocId：單詞出現的文檔id
TF：單詞在某個文檔中出現的次數
POS：單詞在文檔中出現的位置
以單詞“加盟”爲例，其單詞編號爲6，文檔頻率爲3，代表整個文檔集合中有三個文檔包含這個單詞，對應的倒排列表爲{(2;1;<4>),(3;1;<7>),(5;1;<5>)}，含義是在文檔2，3，5出現過這個單詞，在每個文檔的出現過1次，單詞“加盟”在第一個文檔的POS是4，即文檔的第四個單詞是“加盟”，其他的類似。
這個倒排索引已經是一個非常完備的索引系統，實際搜索系統的索引結構基本如此。

2.中文分詞

https://github.com/medcl/elasticsearch-analysis-ik

http://www.cnblogs.com/zlslch/p/6440373.html

3.keyword 和 text

keyword：不進行分詞，直接索引、支持模糊、精確查詢、支持聚合

text：會分詞，然後進行索引、支持模糊、精確查詢、不支持聚合

默認的動態模板，可以同時支持兩種類型

參考：https://elasticsearch.cn/question/2099

https://www.jianshu.com/p/0d13dd7d813a

https://blog.csdn.net/u011652364/article/details/78581737

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

用 tiny-frpc 輕鬆搞定內網穿透

你是否曾爲內網穿透的複雜配置和龐大工具而頭疼？好消息來了，tiny-frpc 就是爲你設計的！這是由 gofrp 團隊開發的一款輕量級反向代理工具，不僅簡單高效，還能大大減少依賴和配置的麻煩。 tiny-frpc 基於 Go 語言開發，體積

2024-06-10 12:54:54

芯片產業管理和營銷指北（3）—— 贏得客戶

注意：本文是依據俞志宏老師的《我在硅谷管芯片：芯片產品線經理生存指南》一書閱讀後歸納總結得到。可以試做此書的讀後感，對芯片產業感興趣的同僚強烈推薦此書爲什麼要見客戶和客戶面對面主要是獲取與客戶相關的各類信息，包含但不限於：市

2024-06-09 14:34:09

【stars-one】星念輕小說下載器

原文: 【stars-one】星念輕小說下載器-Stars-One的雜貨小窩一款將在線輕小說保存到本地的下載工具軟件介紹小說單卷下載小說全卷下載(需VIP) 多線程解析和下載下載導出爲epub文件自動更新軟件使用前需要進行

2024-06-09 14:22:28

shell編程相關的

shell腳本獲取腳本所在目錄執行腳本的父目錄不一定是當前的工作目錄。 url=$(dirname $(readlink -f $0))

2024-06-09 14:16:47

kvm鏈接克隆虛擬機遷移到openstack機器的實驗

總結如果是完整克隆的那種虛擬機，是可以直接在openstack使用的，如果鏡像格式沒問題的話。因爲kvm虛擬機大部分都是鏈接克隆出來的鏡像，不可用直接複製使用，所以需要創建新的鏡像文件創建空盤：qemu-img creat

2024-06-09 14:16:47

【Python】DQN處理CartPole-v1

DQN是強化學習中的一種方法，是對Q-Learning的擴展。通過引入深度神經網絡、經驗回放和目標網絡等技術，使得Q-Learning算法能夠在高維、連續的狀態空間中應用，解決了傳統Q-Learning方法在這些場景下的侷限性。 Q-Le

2024-06-09 14:14:07

P1355 神祕大三角（凸包）

P1355 神祕大三角 - 洛谷 | 計算機科學教育新生態 (luogu.com.cn) 隊友推薦的，算是入門凸包，就是用叉積判斷一下點是否相對每條邊都在凸包的邊的左側。 1 #include <bits/stdc++.h> 2

2024-06-09 14:13:17

前端使用 Konva 實現可視化設計器（13）- 折線 - 最優路徑應用【思路篇】

這一章把直線連接改爲折線連接，沿用原來連接點的關係信息。關於折線的計算，使用的是開源的 AStar 算法進行路徑規劃，啓發方式爲曼哈頓距離，且不允許對角線移動。請大家動動小手，給我一個免費的 Star 吧~ 大家如果發現了 Bug，歡

2024-06-09 14:10:57

生產計劃範圍的擴展 - 工單的拆分與合併

背景　　在過往與不少合作伙伴們，就生產計劃項目方案的討論中，經常提及這樣的一種情況： “我們在編制生產計劃時，有些數量較大的訂單，需要拆分成多個子訂單，這樣才能利用多個資源並行加工，以縮短生產週期，提高資源利用率” - 我們稱爲【工單拆分

2024-06-09 14:09:57

APS系統設計經驗分享(時間推導II - 2023.09)

　　在前一篇關於APS系統設計分享文章(《APS系統設計經驗分享(時間推導 - 2023.03)》)中，我們提到將會分享使用OptaPlanner作爲規劃引擎開發APS系統過程中，遇到的一些時間相關的設計建議與異常情況分析。後來一直忙於項目

2024-06-09 14:09:57

排程過程中任務鎖定的外延與內涵

在生產排程過程中，除了可以藉助強大的算法，與優質的規劃模型對待排任務進行排產優化外，還會遇到一些需要人爲鎖定部分任務的情況。無論是APS系統開發人員，還是排產作業人員，在常見的認識中，對於“鎖定”概念的理解，第一反應就是把任務固定到某個資源

2024-06-09 14:09:57

排程系統中關於任務優先級的需求延伸與設計構思

無論是面向銷售訂單的MPS，還是基於多工序制約關係的APS，還是具體車間生產中針對單一工序的任務作業調度優化，都存在基於被排程對象(例如銷售訂單、生產工單、工序任務)的優先級進行優化的需求場景。當我們僅在宏觀、較高層次的角度考慮，任務優先級

2024-06-09 14:09:57

從零手寫實現 nginx-11-文件處理邏輯與 range 範圍查詢合併

前言大家好，我是老馬。很高興遇到你。我們爲 java 開發者實現了 java 版本的 nginx https://github.com/houbb/nginx4j 如果你想知道 servlet 如何處理的，可以參考我的另一個項目：

2024-06-09 14:02:36

nginx快速分析日誌並找出攻擊IP

第一步：分析NGINX日誌分析日誌主要目的是尋找那些異常活躍的IP地址，通過以下命令可以快速找出。 cat access.log | awk '{print$1}' |sort|uniq -c|sort -rn|head -10 命

2024-06-09 13:59:16

Vue CLI 4與項目構建實戰指南

title: Vue CLI 4與項目構建實戰指南 date: 2024/6/9 updated: 2024/6/9 excerpt: 這篇文章介紹瞭如何使用Vue CLI優化項目構建配置，提高開發效率，涉及配置管理、項目部署策略、插件系

2024-06-09 13:40:15

24小時熱門文章

最新文章

最新評論文章