海量數據的問題思考

原創

2020-07-04 18:30

海量數據處理的問題

給定一個大小超過 100G 的文件, 其中存在 IP 地址, 找到其中出現次數最多的 IP 地址(hash文件切分)

思路：首先，我們知道100G的文件一定不可能一次加載到內存裏進行處理，所以我們考慮利用哈希切分的方法，將ip地址相同的放入同一個文件夾中。具體做法就是，我們通過哈希函數計算大文件中的每一個數據的哈希地址，將哈希地址相同的數據存放到同一個地方，所以這裏的哈希地址也就是我們新的存放數據的地方（小文件）的編號，這就叫做哈希切分，哈希切分達到的最終的目的就是將相同規律（比如說相同的IP地址，相同的單詞）的數據一定是存放在同一個文件中。這裏我們需要注意的是按照ip地址進行哈希切分，ip地址相同的一定在同一個文件夾裏（小文件），但是，在同一文件夾裏的ip地址不一定相同。所以，我們還需要對小文件進行處理。將他們的IP作爲Key,value作爲每個IP出現的次數，最後利用排序算法對value進行排序，找到每個小文件中出現次數最多的IP。

給定100億個整數, 找到其中只出現一次的整數(位圖變形, 用兩位來表示次數).

有兩個文件, 分別有100億個query(查詢詞, 字符串), 只有1G內存, 找到兩個文件的交集(hash文件切分 + 布隆過濾器).

給上千個文件, 每個文件大小爲1K - 100M, 設計算法找到某個詞存在在哪些文件中(倒排索引).

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

這可能是最簡單的AVL二叉平衡查找樹講解

二叉平衡查找樹AVL詳解看懂這篇文章所需的知識點樹、二叉搜索樹、樹高、樹深、層等概念 AVL樹概念：任意節點的左右子樹的高度差不能大於1的樹即爲AVL樹，是爲了解決在頻繁插入刪除等動態更新下出現的時間複雜度退化的問題，所以平

2020-07-08 11:54:55

震驚！Redis 的字符串居然是這樣實現的…

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！之前本人在找工作面試時在Redis相關問題上可栽了跟頭。在面試前按常規套路準備了一下，比如 Redis 的常用5種數據結構，Redis持久化

雲棲號資訊小哥

2020-08-06 12:10:50

數據結構：AVL樹旋轉原理和簡易實現

AVL樹旋轉原理和簡易實現二叉搜索樹雖然可以提高搜索效率，但是如果插入的數據有序時很有可能變成單支，如果變成單支樹的時候，那麼查找時效率也不高了。因此引入AVL樹。 AVL樹是當向這棵樹插入節點的時候，要保證每個節點的左右子樹的

2020-07-08 12:19:01

數據結構：紅黑樹的旋轉原理和模擬實現

紅黑樹的旋轉原理和模擬實現我們瞭解到AVL樹雖然效率很高，但是它是通過多次的旋轉纔到達一個絕對的平衡，旋轉的消耗其實也很大。因此開始引入近似平衡的一棵樹----紅黑樹（RBTree）。紅黑樹每一個節點不是紅色的就是黑色的，它保證

2020-07-08 12:19:01

數據結構：大數據處理問題

1.給定100億個整數，設計算法找到只出現一次的整數？ ①方法一 100億個整數就是400億個字節，42億九千萬是4G，那麼1G就是10億字節，所以要存下100億個整數需要40G的內存空間。因此我們採用位圖100億個整數大概就是1

2020-07-08 12:19:01

數據結構：布隆過濾器

布隆過濾器假如現在有40億個ip地址（string類型），然後給你一個ip地址，讓你查找這個ip地址在不在這40億個ip地址裏？我們應該怎麼做呢？如果用哈希表來處理的話，這裏有40億的數據，數據量太大，因此太佔用空間如果用

2020-07-08 12:19:01

樹上剖分

————————————————18.4.18更新有時我們會遇到這樣的問題：在一棵樹上，每次詢問兩點間路徑上的和或者是最值。但我們用搜索時，時間就會到O（n），這樣根本就完不成算法。但樹上剖分就可以縮短修改的時間。樹上剖分的算法簡介我們定

蒟蒻午时已到

2020-07-08 11:59:23

2.7 封裝Request

request作爲前後臺交換的橋樑，有重要作用。 request常用的方法有讀參數：public String getParameter(String paramName);讀取屬性public Object getAttribut

2020-07-08 11:48:30

樹的總結（二）---非空二叉樹的高度和寬度

1.非空二叉樹的高度 1.1非遞歸算法實現求解非空二叉樹的高度算法思想：採用層次遍歷的算法，設置變量level記錄當前結點所在的層數，設置變量last指向當前層的最右的結點，每次層次遍歷出隊的時候與last指針比較（fron

2020-07-08 11:41:54

樹的總結（一）

考研加油！！！！！！！ 1.1樹的重要概念 1.樹是一種重要的非線性結構；在有n個結點的樹中有n-1條邊； 2.在結點個數爲n(n>1)的各棵樹中，深度最小的樹的深度是多少？它有多少葉子結點？多少分支結點？深度最大的樹的深度是多少？它有多

2020-07-08 11:41:54

【劍指offer】題61：二叉樹序列化、反序列化

使用stringstream http://blog.csdn.net/xw20084898/article/details/21939811 stringstream 是 C++ 提供的另一個字串型的串流(stream)

2020-07-08 11:22:52

基本數據結構——線性結構（棧）

1.什麼是線性結構線性結構是一種有序數據項的集合，其中每個數據項都有唯一的前驅和後繼（除了第一個沒有前驅，最後一個沒有後繼）。新的數據項加入到數據集中時，只會加入到原有某個數據項之前或之後。具有這種性質的數據集，就稱爲線性結構。

weixin_38324954

2020-07-08 11:06:52

Trie 前綴樹/字典樹

一、Trie的介紹： 1、主要應用場景：搜索引擎的自動補全功能：Trie樹+詞頻(概率)權重因子 IP路由：最長前綴匹配，Trie路由算法

放羊的大飞

2020-07-08 10:58:58

大數據網管運營數據存儲模式研究

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！隨着近兩年通信流量業務開展得如火如荼，更多的用戶上網行爲的數據分析需求猛增，而處理這類數據需要大量的寫入處理，而且字段不固定，傳統的關係型數

雲棲號資訊小哥

2020-07-14 15:04:58

雲計算與大數據合體，能給我們帶來什麼？

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！雲計算和大數據的結合可以說是相輔相成，因爲雲計算爲大數據提供了可以彈性擴展相對便宜的存儲空間和計算資源，使得中小企業也可以像大型企業一樣通過

雲棲號資訊小編

2020-07-08 18:46:59

24小時熱門文章

最新文章

最新評論文章