海量數據處理問題彙總及方法總結

面試題中總是有好多海量數據的處理問題,在這裏列出一些常見問題,便於以後查閱:

 類型1:hash映射+hash統計+堆排序

1、 給你A,B兩個文件,各存放50億條URL,每條URL佔用64字節,內存限制是4G,讓你找出A,B文件共同的URL。 

      可以估計每個文件安的大小爲5G×64=320G,遠遠大於內存限制的4G。所以不可能將其完全加載到內存中處理。考慮採取分而治之的方法。

  1. 分而治之/hash映射:遍歷文件a,對每個url求取,然後根據所取得的值將url分別存儲到1000個小文件(記爲)中。這樣每個小文件的大約爲300M。遍歷文件b,採取和a相同的方式將url分別存儲到1000小文件中(記爲)。這樣處理後,所有可能相同的url都在對應的小文件()中,不對應的小文件不可能有相同的url。然後我們只要求出1000對小文件中相同的url即可。
  2. hash統計:求每對小文件中相同的url時,可以把其中一個小文件的url存儲到hash_set中。然後遍歷另一個小文件的每個url,看其是否在剛纔構建的hash_set中,如果是,那麼就是共同的url,存到文件裏面就可以了。

 

2、有10個文件,每個文件1G, 每個文件的每一行都存放的是用戶的query,每個文件的query都可能重複。要你按照query的頻度排序 
 方案1:

  1. hash映射:順序讀取10個文件,按照hash(query)%10的結果將query寫入到另外10個文件(記爲)中。這樣新生成的文件每個的大小大約也1G(假設hash函數是隨機的)。
  2. hash統計:找一臺內存在2G左右的機器,依次對用hash_map(query, query_count)來統計每個query出現的次數。注:hash_map(query,query_count)是用來統計每個query的出現次數,不是存儲他們的值,出現一次,則count+1。
  3. 堆/快速/歸併排序:利用快速/堆/歸併排序按照出現次數進行排序。將排序好的query和對應的query_cout輸出到文件中。這樣得到了10個排好序的文件(記爲)。對這10個文件進行歸併排序(內排序與外排序相結合)。

     除此之外,此題還有以下兩個方法:
     方案2:一般query的總量是有限的,只是重複的次數比較多而已,可能對於所有的query,一次性就可以加入到內存了。這樣,我們就可以採用trie樹/hash_map等直接來統計每個query出現的次數,然後按出現次數做快速/堆/歸併排序就可以了。

     方案3:與方案1類似,但在做完hash,分成多個文件後,可以交給多個文件來處理,採用分佈式的架構來處理(比如MapReduce),最後再進行合併。


3、 有一個1G大小的一個文件,裏面每一行是一個詞,詞的大小不超過16個字節,內存限制大小是1M。返回頻數最高的100個詞

  1. 分而治之/hash映射:順序讀文件中,對於每個詞x,取hash(x)%5000,然後按照該值存到5000個小文件(記爲x0,x1,...x4999)中。這樣每個文件大概是200k左右。如果其中的有的文件超過了1M大小,還可以按照類似的方法繼續往下分,直到分解得到的小文件的大小都不超過1M。
  2. hash統計:對每個小文件,採用trie樹/hash_map等統計每個文件中出現的詞以及相應的頻率。
  3. 堆/歸併排序:取出出現頻率最大的100個詞(可以用含100個結點的最小堆),並把100個詞及相應的頻率存入文件,這樣又得到了5000個文件。最後就是把這5000個文件進行歸併(類似於歸併排序)的過程了。

4、海量日誌數據,提取出某日訪問百度次數最多的那個IP。

     

  1. 分而治之/hash映射:針對數據太大,內存受限,只能是:把大文件化成(取模映射)小文件,即16字方針:大而化小,各個擊破,縮小規模,逐個解決
  2. hash統計:當大文件轉化了小文件,那麼我們便可以採用常規的Hashmap(ip,value)來進行頻率統計。
  3. 堆/快速排序:統計完了之後,便進行排序(可採取堆排序),得到次數最多的IP。

     具體而論,則是: “首先是這一天,並且是訪問百度的日誌中的IP取出來,逐個寫入到一個大文件中。注意到IP是32位的,最多有個2^32個IP。同樣可以採用映射的方法,比如模1000,把整個大文件映射爲1000個小文件,再找出每個小文中出現頻率最大的IP(可以採用Hash_map進行頻率統計,然後再找出頻率最大的幾個)及相應的頻率。然後再在這1000個最大的IP中,找出那個頻率最大的IP,即爲所求。

     注:Hash取模是一種等價映射,不會存在同一個元素分散到不同小文件中去的情況,即這裏採用的是mod1000算法,那麼相同的IP在hash後,只可能落在同一個文件中,不可能被分散的。

 

 

5、海量數據分佈在100臺電腦中,想個辦法高效統計出這批數據的TOP10。

    1.先把所有的數據遍歷一遍做一次hash(保證相同的數據條目劃分到同一臺電腦上進行運算),然後根據hash結果重新分佈到100臺電腦中,

    2.堆排序:在每臺電腦上求出TOP10,可以採用包含10個元素的堆完成(TOP10小,用最大堆,TOP10大,用最小堆)。比如求TOP10大,我們首   

       先取前10個元素調整成最小堆,如果發現,然後掃描後面的數據,並與堆頂元素比較,如果比堆頂元素大,那麼用該元素替換堆頂,然後再調整爲  

       最小堆。最後堆中的元素就是TOP10大。

    3.求出每臺電腦上的TOP10後,然後把這100臺電腦上的TOP10組合起來,共1000個數據,再利用上面類似的方法求出TOP10就可以了。

 

6、怎麼在海量數據中找出重複次數最多的一個

      方案1:先做hash,然後求模映射爲小文件,求出每個小文件中重複次數最多的一個,並記錄重複次數。然後找出上一步求出的數據中重複次數最多的一個就是所求(具體參考前面的題)。

 

7、上千萬or億數據(有重複),統計其中出現次數最多的前N個數據。

      上千萬或上億的數據,現在的機器的內存應該能存下。所以考慮採用hash_map/搜索二叉樹/紅黑樹等來進行統計次數。然後就是取出前N個出現次數最多的數據了,可以用堆機制完成。

 

8、1000萬字符串,其中有些是相同的(重複),需要把重複的全部去掉,保留沒有重複的字符串。請問怎麼設計和實現?

       用trie樹比較合適,hash_map也應該能行

9、一個文本文件,大約有一萬行,每行一個詞,要求統計出其中最頻繁出現的前十個詞。請給出思想,給時間複雜度分析。

      這題是考慮時間效率。用trie樹統計每個詞出現的次數,時間複雜度是O(n*le)(le表示單詞的平準長度)。然後是找出出現最頻繁的前10個詞,可以用堆來實現,前面的題中已經講到了,時間複雜度是O(n*lg10)。所以總的時間複雜度,是O(n*le)與O(n*lg10)中較大的哪一個。

 

10、一個文本文件,也是找出前十個最經常出現的詞,但這次文件比較長,說是上億行或者十億行,總之無法一次讀入內存,問最優解。

     1)hash映射:hash(單詞) % 1000, 這樣這些單詞就分佈在1000個小文件中

     2)hash統計:用hashmap或者trie樹進行統計,找出每個小文件中的最常出現的10個詞

     3)堆排序:用第一個文件的10個最常出現詞構建小根堆,然後依次讀入剩下999個文件的最常出現單詞,調整對,最後將得到總體的最常出現詞

 

11、100w個數中找最大的前100個數

    1000,000個數是1000000*4 = 4M,內存完全能放下,直接堆排序即可

     

12、尋找熱門查詢: 
搜索引擎會通過日誌文件把用戶每次檢索使用的所有檢索串都記錄下來,每個查詢串的長度爲1-255字節。假設目前有一千萬個記錄, 
這些查詢串的重複度比較高,雖然總數是1千萬,但如果除去重複後,不超過3百萬個。一個查詢串的重複度越高,說明查詢它的用戶越多, 
也就是越熱門。請你統計最熱門的10個查詢串,要求使用的內存不能超過1G。 
(1)請描述你解決這個問題的思路; 
(2)請給出主要的處理流程,算法,以及算法的複雜度。

      我們知道,數據大則劃爲小的,但如果數據規模比較小,能一次性裝入內存呢?比如這第2題,雖然有一千萬個Query,但是由於重複度比較高,因此事實上只有300萬的Query,每個Query255Byte,因此我們可以考慮把他們都放進內存中去,而現在只是需要一個合適的數據結構,在這裏,Hash Table絕對是我們優先的選擇。所以我們摒棄分而治之/hash映射的方法,直接上hash統計,然後排序。So,

  1. hash統計:先對這批海量數據預處理(維護一個Key爲Query字串,Value爲該Query出現次數的HashTable,即Hashmap(Query,Value),每次讀取一個Query,如果該字串不在Table中,那麼加入該字串,並且將Value值設爲1;如果該字串在Table中,那麼將該字串的計數加一即可。最終我們在O(N)的時間複雜度內用Hash表完成了統計;
  2. 堆排序:第二步、藉助堆這個數據結構,找出Top K,時間複雜度爲N‘logK。即藉助堆結構,我們可以在log量級的時間內查找和調整/移動。因此,維護一個K(該題目中是10)大小的小根堆,然後遍歷300萬的Query,分別和根元素進行對比所以,我們最終的時間複雜度是:O(N) + N'*O(logK),(N爲1000萬,N’爲300萬)。

13、一共有N個機器,每個機器上有N個數。每個機器最多存O(N)個數並對它們操作。
如何找到N^2個數的中數(median)?

      方案1:先大體估計一下這些數的範圍,比如這裏假設這些數都是32位無符號整數(共有2^32個)。我們把0到2^32-1的整數劃分爲N個範圍段,每個段包含(2^32)/N個整數。比如,第一個段位0到2^32/N-1,第二段爲(2^32)/N到(2^32)/N-1,…,第N個段爲(2^32)(N-1)/N到2^32-1。然後,掃描每個機器上的N個數,把屬於第一個區段的數放到第一個機器上,屬於第二個區段的數放到第二個機器上,…,屬於第N個區段的數放到第N個機器上。注意這個過程每個機器上存儲的數應該是O(N)的。下面我們依次統計每個機器上數的個數,一次累加,直到找到第k個機器,在該機器上累加的數大於或等於(N^2)/2,而在第k-1個機器上的累加數小於(N^2)/2,並把這個數記爲x。那麼我們要找的中位數在第k個機器中,排在第(N^2)/2-x位。然後我們對第k個機器的數排序,並找出第(N^2)/2-x個數,即爲所求的中位數的複雜度是O(N^2)的。

      方案2:先對每臺機器上的數進行排序。排好序後,我們採用歸併排序的思想,將這N個機器上的數歸併起來得到最終的排序。找到第(N^2)/2個便是所求。複雜度是O(N^2*lgN^2)。

 

類型2:bitmap 雙層桶劃分

      適用範圍:第k大,中位數,不重複或重複的數字
  基本原理及要點:因爲元素範圍很大,不能利用直接尋址表,所以通過多次劃分,逐步確定範圍,然後最後在一個可以接受的範圍內進行。可以通過多次縮小,雙層只是一個例子。

14、 2.5億個整數中找出不重複的整數,內存空間不足以容納這2.5億個整數。

     

      方案1:採用2-Bitmap(每個數分配2bit,00表示不存在,01表示出現一次,10表示多次,11無意義)進行,共需內存2^32*2bit=1GB內存,還可以接受。然後掃描這2.5億個整數,查看Bitmap中相對應位,如果是00變01,01變10,10保持不變。所描完事後,查看bitmap,把對應位是01的整數輸出即可。如果數字過多內存放不下,則可以分塊再bitmap

      方案2:也可採用前面題類似的方法,進行劃分小文件的方法。然後在小文件中找出不重複的整數,並排序。然後再進行歸併,注意去除重複的元素

 

15 已知某個文件內包含一些電話號碼,每個號碼爲8位數字,統計不同號碼的個數。

      8位最多99 999 999,大概需要99m個bit,大概10幾m字節的內存即可。 (可以理解爲從0-99 999 999的數字,每個數字對應一個Bit位,所以只需要99M個Bit==12MBytes,這樣,就用了小小的12M左右的內存表示了所有的8位數的電話)

 

16、5億個int找它們的中位數。
  這個例子比上面那個更明顯。首先我們將int劃分爲2^16個區域,然後讀取數據統計落到各個區域裏的數的個數,之後我們根據統計結果就可以判斷中位數落到那個區域,同時知道這個區域中的第幾大數剛好是中位數。然後第二次掃描我們只統計落在這個區域中的那些數就可以了。
  實際上,如果不是int是int64,我們可以經過3次這樣的劃分即可降低到可以接受的程度。即可以先將int64分成2^24個區域,然後確定區域的第幾大數,在將該區域分成2^20個子區域,然後確定是子區域的第幾大數,然後子區域裏的數的個數只有2^20,就可以直接利用direct addr table進行統計了。

17、給40億個不重複的unsigned int的整數,沒排過序的,然後再給一個數,如何快速判斷這個數是否在那40億個數當中?
      用位圖/Bitmap的方法,申請512M的內存,一個bit位代表一個unsigned int值。讀入40億個數,設置相應的bit位,讀入要查詢的數,查看相應bit位是否爲1,爲1表示存在,爲0表示不存在。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章