面試時被問到倒排索引是什麼該如何快速明瞭的回答

    首先先明確幾個關於搜索引擎中的概念

    文檔(Document):一般搜索引擎的處理對象是互聯網網頁,而文檔這個概念要更寬泛些,代表以文本形式存在的存儲對象,相比網頁來說,涵蓋更多種形式,比如Word,PDF,html,XML等不同格式的文件都可以稱之爲文檔。再比如一封郵件,一條短信,一條微博也可以稱之爲文檔。在本書後續內容,很多情況下會使用文檔來表徵文本信息。

    索引庫(Index): 若干個文檔的合集.

    詞條:原始文檔數據按照一定的算法進行分詞,得到的每一個詞.例如:我是中國人.其中就有中國,中國人等等.未來可以通過這些分詞後的詞條,來索引到文檔.

 

所以可以這麼回答面試官:所謂的倒排索引,就是將原始的文檔進行編號,創建文檔索引,形成文檔列表.然後對文檔進行分詞,得到詞條.再對詞條進行編號,並以詞條創建索引.然後記錄下包含該詞條的所有文檔編號.(單個分詞映射到對應的若干個文檔,所有分詞和文檔映射關係組合起來的就是倒排列表,輔助理解,不用說出). 未來搜索時,就可以通過對搜索關鍵字的分詞,然後找到索引庫中對應的文檔,這就是倒排索引的原理.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章