首先先明確幾個關於搜索引擎中的概念
文檔(Document):一般搜索引擎的處理對象是互聯網網頁,而文檔這個概念要更寬泛些,代表以文本形式存在的存儲對象,相比網頁來說,涵蓋更多種形式,比如Word,PDF,html,XML等不同格式的文件都可以稱之爲文檔。再比如一封郵件,一條短信,一條微博也可以稱之爲文檔。在本書後續內容,很多情況下會使用文檔來表徵文本信息。
索引庫(Index): 若干個文檔的合集.
詞條:原始文檔數據按照一定的算法進行分詞,得到的每一個詞.例如:我是中國人.其中就有中國,中國人等等.未來可以通過這些分詞後的詞條,來索引到文檔.
所以可以這麼回答面試官:所謂的倒排索引,就是將原始的文檔進行編號,創建文檔索引,形成文檔列表.然後對文檔進行分詞,得到詞條.再對詞條進行編號,並以詞條創建索引.然後記錄下包含該詞條的所有文檔編號.(單個分詞映射到對應的若干個文檔,所有分詞和文檔映射關係組合起來的就是倒排列表,輔助理解,不用說出). 未來搜索時,就可以通過對搜索關鍵字的分詞,然後找到索引庫中對應的文檔,這就是倒排索引的原理.