1.倒排索引(Inverted Index):倒排索引是實現“單詞-文檔矩陣”的一種具體存儲形式,通過倒排索引,可以根據單詞快速獲取包含這個單詞的文檔列表。倒排索引主要由兩個部分組成:“單詞詞典”和“倒排文件”。
原文:http://www.cnblogs.com/zlslch/p/6440114.html
總結
單詞ID:記錄每個單詞的單詞編號;
單詞:對應的單詞;
文檔頻率:代表文檔集合中有多少個文檔包含某個單詞
倒排列表:包含單詞ID及其他必要信息
DocId:單詞出現的文檔id
TF:單詞在某個文檔中出現的次數
POS:單詞在文檔中出現的位置
以單詞“加盟”爲例,其單詞編號爲6,文檔頻率爲3,代表整個文檔集合中有三個文檔包含這個單詞,對應的倒排列表爲{(2;1;<4>),(3;1;<7>),(5;1;<5>)},含義是在文檔2,3,5出現過這個單詞,在每個文檔的出現過1次,單詞“加盟”在第一個文檔的POS是4,即文檔的第四個單詞是“加盟”,其他的類似。
這個倒排索引已經是一個非常完備的索引系統,實際搜索系統的索引結構基本如此。
2.中文分詞
https://github.com/medcl/elasticsearch-analysis-ik
http://www.cnblogs.com/zlslch/p/6440373.html
3.keyword 和 text
keyword:不進行分詞,直接索引、支持模糊、精確查詢、支持聚合
text:會分詞,然後進行索引、支持模糊、精確查詢、不支持聚合
默認的動態模板,可以同時支持兩種類型
參考:https://elasticsearch.cn/question/2099