Elasticsearch 筆記 倒排索引 keyword 和 text

1.倒排索引(Inverted Index):倒排索引是實現“單詞-文檔矩陣”的一種具體存儲形式,通過倒排索引,可以根據單詞快速獲取包含這個單詞的文檔列表。倒排索引主要由兩個部分組成:“單詞詞典”和“倒排文件”。

原文:http://www.cnblogs.com/zlslch/p/6440114.html

總結

單詞ID:記錄每個單詞的單詞編號;
單詞:對應的單詞;
文檔頻率:代表文檔集合中有多少個文檔包含某個單詞
倒排列表:包含單詞ID及其他必要信息
DocId:單詞出現的文檔id
TF:單詞在某個文檔中出現的次數
POS:單詞在文檔中出現的位置
     以單詞“加盟”爲例,其單詞編號爲6,文檔頻率爲3,代表整個文檔集合中有三個文檔包含這個單詞,對應的倒排列表爲{(2;1;<4>),(3;1;<7>),(5;1;<5>)},含義是在文檔2,3,5出現過這個單詞,在每個文檔的出現過1次,單詞“加盟”在第一個文檔的POS是4,即文檔的第四個單詞是“加盟”,其他的類似。
這個倒排索引已經是一個非常完備的索引系統,實際搜索系統的索引結構基本如此。

 

2.中文分詞

https://github.com/medcl/elasticsearch-analysis-ik

http://www.cnblogs.com/zlslch/p/6440373.html

 

3.keyword 和 text

keyword:不進行分詞,直接索引、支持模糊、精確查詢、支持聚合

text:會分詞,然後進行索引、支持模糊、精確查詢、不支持聚合

默認的動態模板,可以同時支持兩種類型

參考:https://elasticsearch.cn/question/2099

https://www.jianshu.com/p/0d13dd7d813a

https://blog.csdn.net/u011652364/article/details/78581737

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章