一、索引的建立分爲三種方式:
1.兩遍文檔倒排法
第一遍文檔掃描時完成一些全局信息統計,如文檔集合的數量、每個文檔的單詞數量、詞頻等
第二遍文檔掃描的主要任務是填補每個單詞的倒排列表,完全在內存中進行
2.排序倒排法
步驟爲:
排序文檔ID賦值、單詞ID賦值、更新詞典、統計詞頻、構建三元組、三元組排序、寫中間結果文件、合併中間結果文件。
3.歸併倒排法
二、索引更新
1.完全重建策略
2.再合併策略
3.原地更新策略
4.混合策略
一、索引的建立分爲三種方式:
1.兩遍文檔倒排法
第一遍文檔掃描時完成一些全局信息統計,如文檔集合的數量、每個文檔的單詞數量、詞頻等
第二遍文檔掃描的主要任務是填補每個單詞的倒排列表,完全在內存中進行
2.排序倒排法
步驟爲:
排序文檔ID賦值、單詞ID賦值、更新詞典、統計詞頻、構建三元組、三元組排序、寫中間結果文件、合併中間結果文件。
3.歸併倒排法
二、索引更新
1.完全重建策略
2.再合併策略
3.原地更新策略
4.混合策略
加入 Zilliz AI 初創計劃 Zilliz AI 初創計劃是面向 AI 初創企業推出的一項扶持計劃,預計提供總計 1000 萬元的 Zilliz Cloud 抵扣金,致力於幫助 AI