來源於搜索引擎,海量爬取數據之後,用的是倒排表
海量數據的遍歷時間複雜度是O(n)
如何解決:
解決思想:層次過濾, 過濾條件從簡單到複雜, 層次間的時間複雜度爲遞增
先過濾部分,再過濾部分,遍歷剩餘部分
要知道某個單詞存在在哪些文檔裏面;
具體實施:
建立一張表格,記錄所有單詞被包含在哪些文檔之中;
應用於問答系統:
1、遍歷輸入的問題,查找每個單詞在所有問題中出現的次數;
2、若剩餘數量多,可統計兩個或者多個單詞,在同一個問題中出現的次數;
3、然後進行語句相似度的計算;
4、計算之後,返回相似度最大的問題的答案;