海量数据的问题思考

原創

2020-07-04 18:30

海量数据处理的问题

给定一个大小超过 100G 的文件, 其中存在 IP 地址, 找到其中出现次数最多的 IP 地址(hash文件切分)

思路：首先，我们知道100G的文件一定不可能一次加载到内存里进行处理，所以我们考虑利用哈希切分的方法，将ip地址相同的放入同一个文件夹中。具体做法就是，我们通过哈希函数计算大文件中的每一个数据的哈希地址，将哈希地址相同的数据存放到同一个地方，所以这里的哈希地址也就是我们新的存放数据的地方（小文件）的编号，这就叫做哈希切分，哈希切分达到的最终的目的就是将相同规律（比如说相同的IP地址，相同的单词）的数据一定是存放在同一个文件中。这里我们需要注意的是按照ip地址进行哈希切分，ip地址相同的一定在同一个文件夹里（小文件），但是，在同一文件夹里的ip地址不一定相同。所以，我们还需要对小文件进行处理。将他们的IP作为Key,value作为每个IP出现的次数，最后利用排序算法对value进行排序，找到每个小文件中出现次数最多的IP。

给定100亿个整数, 找到其中只出现一次的整数(位图变形, 用两位来表示次数).

有两个文件, 分别有100亿个query(查询词, 字符串), 只有1G内存, 找到两个文件的交集(hash文件切分 + 布隆过滤器).

给上千个文件, 每个文件大小为1K - 100M, 设计算法找到某个词存在在哪些文件中(倒排索引).

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

这可能是最简单的AVL二叉平衡查找树讲解

二叉平衡查找樹AVL詳解看懂這篇文章所需的知識點樹、二叉搜索樹、樹高、樹深、層等概念 AVL樹概念：任意節點的左右子樹的高度差不能大於1的樹即爲AVL樹，是爲了解決在頻繁插入刪除等動態更新下出現的時間複雜度退化的問題，所以平

2020-07-08 11:54:55

震惊！Redis 的字符串居然是这样实现的…

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！之前本人在找工作面試時在Redis相關問題上可栽了跟頭。在面試前按常規套路準備了一下，比如 Redis 的常用5種數據結構，Redis持久化

雲棲號資訊小哥

2020-08-06 12:10:50

数据结构：AVL树旋转原理和简易实现

AVL樹旋轉原理和簡易實現二叉搜索樹雖然可以提高搜索效率，但是如果插入的數據有序時很有可能變成單支，如果變成單支樹的時候，那麼查找時效率也不高了。因此引入AVL樹。 AVL樹是當向這棵樹插入節點的時候，要保證每個節點的左右子樹的

2020-07-08 12:19:01

数据结构：红黑树的旋转原理和模拟实现

紅黑樹的旋轉原理和模擬實現我們瞭解到AVL樹雖然效率很高，但是它是通過多次的旋轉纔到達一個絕對的平衡，旋轉的消耗其實也很大。因此開始引入近似平衡的一棵樹----紅黑樹（RBTree）。紅黑樹每一個節點不是紅色的就是黑色的，它保證

2020-07-08 12:19:01

数据结构：大数据处理问题

1.給定100億個整數，設計算法找到只出現一次的整數？ ①方法一 100億個整數就是400億個字節，42億九千萬是4G，那麼1G就是10億字節，所以要存下100億個整數需要40G的內存空間。因此我們採用位圖100億個整數大概就是1

2020-07-08 12:19:01

数据结构：布隆过滤器

布隆過濾器假如現在有40億個ip地址（string類型），然後給你一個ip地址，讓你查找這個ip地址在不在這40億個ip地址裏？我們應該怎麼做呢？如果用哈希表來處理的話，這裏有40億的數據，數據量太大，因此太佔用空間如果用

2020-07-08 12:19:01

树上剖分

————————————————18.4.18更新有時我們會遇到這樣的問題：在一棵樹上，每次詢問兩點間路徑上的和或者是最值。但我們用搜索時，時間就會到O（n），這樣根本就完不成算法。但樹上剖分就可以縮短修改的時間。樹上剖分的算法簡介我們定

蒟蒻午时已到

2020-07-08 11:59:23

2.7 封装Request

request作爲前後臺交換的橋樑，有重要作用。 request常用的方法有讀參數：public String getParameter(String paramName);讀取屬性public Object getAttribut

2020-07-08 11:48:30

树的总结（二）---非空二叉树的高度和宽度

1.非空二叉樹的高度 1.1非遞歸算法實現求解非空二叉樹的高度算法思想：採用層次遍歷的算法，設置變量level記錄當前結點所在的層數，設置變量last指向當前層的最右的結點，每次層次遍歷出隊的時候與last指針比較（fron

2020-07-08 11:41:54

树的总结（一）

考研加油！！！！！！！ 1.1樹的重要概念 1.樹是一種重要的非線性結構；在有n個結點的樹中有n-1條邊； 2.在結點個數爲n(n>1)的各棵樹中，深度最小的樹的深度是多少？它有多少葉子結點？多少分支結點？深度最大的樹的深度是多少？它有多

2020-07-08 11:41:54

【剑指offer】题61：二叉树序列化、反序列化

使用stringstream http://blog.csdn.net/xw20084898/article/details/21939811 stringstream 是 C++ 提供的另一個字串型的串流(stream)

2020-07-08 11:22:52

基本数据结构——线性结构（栈）

1.什麼是線性結構線性結構是一種有序數據項的集合，其中每個數據項都有唯一的前驅和後繼（除了第一個沒有前驅，最後一個沒有後繼）。新的數據項加入到數據集中時，只會加入到原有某個數據項之前或之後。具有這種性質的數據集，就稱爲線性結構。

weixin_38324954

2020-07-08 11:06:52

Trie 前缀树/字典树

一、Trie的介紹： 1、主要應用場景：搜索引擎的自動補全功能：Trie樹+詞頻(概率)權重因子 IP路由：最長前綴匹配，Trie路由算法

放羊的大飞

2020-07-08 10:58:58

大数据网管运营数据存储模式研究

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！隨着近兩年通信流量業務開展得如火如荼，更多的用戶上網行爲的數據分析需求猛增，而處理這類數據需要大量的寫入處理，而且字段不固定，傳統的關係型數

雲棲號資訊小哥

2020-07-14 15:04:58

云计算与大数据合体，能给我们带来什么？

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！雲計算和大數據的結合可以說是相輔相成，因爲雲計算爲大數據提供了可以彈性擴展相對便宜的存儲空間和計算資源，使得中小企業也可以像大型企業一樣通過

雲棲號資訊小編

2020-07-08 18:46:59

24小時熱門文章

前端使用 Konva 实现可视化设计器（13）- 折线 - 最优路径应用【思路篇】

最新文章

最新評論文章