如何從大量的 URL 中找出相同的 URL?

題目描述

       給定 a、b 兩個文件,各存放 50 億個 URL,每個 URL 各佔 64B,內存限制是 4G。請找出 a、b 兩個文件共同的 URL。

解答思路

       每個 URL 佔 64B,5,000,000,000 * 64B ≈ 5GB * 64 = 320GB,那麼 50 億個 URL佔用的空間大小約爲 320GB。由於內存大小隻有 4G,因此,我們不可能一次性把所有 URL 加載到內存中處理。對於這種類型的題目,一般採用分治策略,即:把一個文件中的 URL 按照某個特徵劃分爲多個小文件,使得每個小文件大小不超過 4G,這樣就可以把這個小文件讀到內存中進行處理了。

思路如下

       首先遍歷文件 a,對遍歷到的 URL 求 hash(URL) % 1000,根據計算結果把遍歷到的 URL 存儲到 a0, a1, a2, ..., a999,這樣每個大小約爲 300MB。使用同樣的方法遍歷文件 b,把文件 b 中的 URL 分別存儲到文件 b0, b1, b2, ..., b999 中。這樣處理過後,所有可能相同的 URL 都在對應的小文件中,即 a0 對應 b0, ..., a999 對應 b999,不對應的小文件不可能有相同的 URL。那麼接下來,我們只需要求出這 1000 對小文件中相同的 URL 就好了。

       接着遍歷 ai( i∈[0,999]),把 URL 存儲到一個 HashSet 集合中。然後遍歷 bi 中每個 URL,看在 HashSet 集合中是否存在,若存在,說明這就是共同的 URL,可以把這個 URL 保存到一個單獨的文件中。

方法總結

  1. 分而治之,進行哈希取餘;
  2. 對每個子文件進行 HashSet 統計。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章