搜索引擎lucene實現思路

ES的核心就是lucene

正排索引:關鍵詞-》文檔,通過關鍵詞定位到文檔

倒排索引:文檔-》關鍵詞,通過文檔定位到關鍵詞

1、管理員構建“關鍵詞”,遍歷文檔,記錄這些“關鍵詞”在文檔中的位置(也就是倒排索引);查詢關鍵詞的時候就能快速定位到這些文檔的相關信息。

2、但是現實業務不會只使用“關鍵詞”查詢的,所以一方面要不斷的新增“關鍵詞”應對業務的變化,一方面需要分詞技術將業務查詢的語句分出多個系統能夠識別的“關鍵詞”,然後通過“關鍵詞”查到相關文章。

3、再根據查詢到的文章進行一系列算法得分,按照得分排序,進行顯示。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章