倒排表的應用--搜索引擎

來源於搜索引擎,海量爬取數據之後,用的是倒排表

海量數據的遍歷時間複雜度是O(n)

如何解決:

解決思想:層次過濾, 過濾條件從簡單到複雜, 層次間的時間複雜度爲遞增

先過濾部分,再過濾部分,遍歷剩餘部分

 

要知道某個單詞存在在哪些文檔裏面;

具體實施:

建立一張表格,記錄所有單詞被包含在哪些文檔之中;

 

應用於問答系統:

1、遍歷輸入的問題,查找每個單詞在所有問題中出現的次數;

2、若剩餘數量多,可統計兩個或者多個單詞,在同一個問題中出現的次數;

3、然後進行語句相似度的計算;

4、計算之後,返回相似度最大的問題的答案;

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章