如何從大量的 URL 中找出相同的 URL？

原創

jack1liu

2020-06-27 04:23

題目描述

給定 a、b 兩個文件，各存放 50 億個 URL，每個 URL 各佔 64B，內存限制是 4G。請找出 a、b 兩個文件共同的 URL。

解答思路

每個 URL 佔 64B，5,000,000,000 * 64B ≈ 5GB * 64 = 320GB，那麼 50 億個 URL佔用的空間大小約爲 320GB。由於內存大小隻有 4G，因此，我們不可能一次性把所有 URL 加載到內存中處理。對於這種類型的題目，一般採用分治策略，即：把一個文件中的 URL 按照某個特徵劃分爲多個小文件，使得每個小文件大小不超過 4G，這樣就可以把這個小文件讀到內存中進行處理了。

思路如下：

首先遍歷文件 a，對遍歷到的 URL 求 hash(URL) % 1000，根據計算結果把遍歷到的 URL 存儲到 a0, a1, a2, ..., a999，這樣每個大小約爲 300MB。使用同樣的方法遍歷文件 b，把文件 b 中的 URL 分別存儲到文件 b0, b1, b2, ..., b999 中。這樣處理過後，所有可能相同的 URL 都在對應的小文件中，即 a0 對應 b0, ..., a999 對應 b999，不對應的小文件不可能有相同的 URL。那麼接下來，我們只需要求出這 1000 對小文件中相同的 URL 就好了。

接着遍歷 ai( i∈[0,999])，把 URL 存儲到一個 HashSet 集合中。然後遍歷 bi 中每個 URL，看在 HashSet 集合中是否存在，若存在，說明這就是共同的 URL，可以把這個 URL 保存到一個單獨的文件中。

方法總結

分而治之，進行哈希取餘；
對每個子文件進行 HashSet 統計。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

如何從大量的 URL 中找出相同的 URL？

題目描述

解答思路

方法總結

藍橋15屆stema編程題密碼鎖-動態規劃 C++和Python最後一道題

2021看雪SDC議題回顧 | SaTC：一種全新的物聯網設備漏洞自動化挖掘方法

Kafka存儲機制

aws語音呼叫調用，告警電話

【轉】[C#] WebAPI 防止併發調用二（冥等性）

HTTP URL 詳解

得物 ZooKeeper SLA 也可以 99.99%

創新工具：2024年開發者必備的一款表格控件（二）

車牌識別控制檯可快速整合二次開發

CPU 利用率高如何分析

06. 重構-簡化條件表達式

JMH 性能測試分析工具

Redis 過期策略、內存淘汰機制和 LRU 算法的實現

04. 重構-在對象之間搬移特性

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結