面試題目-大數據量專題

1. 給你A,B兩個文件,各存放50億條URL,每條URL佔用64字節,內存限制是4G,讓你找出A,B文件共同的URL。 

2. 有10個文件,每個文件1G, 每個文件的每一行都存放的是用戶的query,每個文件的query都可能重複。要你按照query的頻度排序
 
3. 有一個1G大小的一個文件,裏面每一行是一個詞,詞的大小不超過16個字節,內存限制大小是1M。返回頻數最高的100個詞

4.海量日誌數據,提取出某日訪問百度次數最多的那個IP。

5.2.5億個整數中找出不重複的整數,內存空間不足以容納這2.5億個整數。

6.海量數據分佈在100臺電腦中,想個辦法高效統計出這批數據的TOP10。

7.怎麼在海量數據中找出重複次數最多的一個

8.上千萬or億數據(有重複),統計其中出現次數最多的前N個數據。

統計可以用hash,二叉數,trie樹。對統計結果用堆求出現的前n大數據。增加點限制可以提高效率,比如 出現次數>數據總數/N的一定是在前N個之內

9.1000萬字符串,其中有些是相同的(重複),需要把重複的全部去掉,保留沒有重複的字符串。請問怎麼設計和實現?

10.一個文本文件,大約有一萬行,每行一個詞,要求統計出其中最頻繁出現的前十個詞。請給出思想,給時間複雜度分析。

11.一個文本文件,也是找出前十個最經常出現的詞,但這次文件比較長,說是上億行或者十億行,總之無法一次讀入內存,問最優解。

12.有10個文件,每個文件1G, 每個文件的每一行都存放的是用戶的query,每個文件的query都可能重複要按照query的頻度排序

13.100w個數中找最大的前100個數

14.尋找熱門查詢:
搜索引擎會通過日誌文件把用戶每次檢索使用的所有檢索串都記錄下來,每個查詢串的長度爲1-255字節。假設目前有一千萬個記錄,
這些查詢串的重複度比較高,雖然總數是1千萬,但如果除去重複後,不超過3百萬個。一個查詢串的重複度越高,說明查詢它的用戶越多,
也就是越熱門。請你統計最熱門的10個查詢串,要求使用的內存不能超過1G。
(1)請描述你解決這個問題的思路;
(2)請給出主要的處理流程,算法,以及算法的複雜度。

15.一共有N個機器,每個機器上有N個數。每個機器最多存O(N)個數並對它們操作。
如何找到N^2個數的中數(median)?

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章