Top K算法詳細解析—百度面試

問題描述:

這是在網上找到的一道百度的面試題:

搜索引擎會通過日誌文件把用戶每次檢索使用的所有檢索串都記錄下來,每個查詢串的長度爲1-255字節。假設目前有一千萬個記錄,這些查詢串的重複度比較高,雖然總數是1千萬,但如果除去重複後,不超過3百萬個。一個查詢串的重複度越高,說明查詢它的用戶越多,也就是越熱門。請你統計最熱門的10個查詢串,要求使用的內存不能超過1G。


問題解析:

【分析】:要統計最熱門查詢,首先就是要統計每個Query出現的次數,然後根據統計結果,找出Top 10。所以我們可以基於這個思路分兩步來設計該算法。下面分別給出這兩步的算法:


第一步:Query統計

算法一:直接排序法

首先我們能想到的算法就是排序了,首先對這個日誌裏面的所有Query都進行排序,然後再遍歷排好序的Query,統計每個Query出現的次數了。但是題目中有明確要求,那就是內存不能超過1G,一千萬條記錄,每條記錄是225Byte,很顯然要佔據2.55G內存,這個條件就不滿足要求了。

讓我們回憶一下數據結構課程上的內容,當數據量比較大而且內存無法裝下的時候,我們可以採用外排序的方法來進行排序,這裏筆者採用歸併排序,是因爲歸併排序有一個比較好的時間複雜度O(NlgN)。

排完序之後我們再對已經有序的Query文件進行遍歷,統計每個Query出現的次數,再次寫入文件中。

綜合分析一下,排序的時間複雜度是O(NlgN),而遍歷的時間複雜度是O(N),因此該算法的總體時間複雜度就是O(NlgN)。

算法二:Hash Table法

在上個方法中,我們採用了排序的辦法來統計每個Query出現的次數,時間複雜度是NlgN,那麼能不能有更好的方法來存儲,而時間複雜度更低呢?

題目中說明了,雖然有一千萬個Query,但是由於重複度比較高,因此事實上只有300萬的Query,每個Query255Byte,因此我們可以考慮把他們都放進內存中去,而現在只是需要一個合適的數據結構,在這裏,Hash Table絕對是我們優先的選擇,因爲Hash Table的查詢速度非常的快,幾乎是O(1)的時間複雜度。

那麼,我們的算法就有了:維護一個Key爲Query字串,Value爲該Query出現次數的HashTable,每次讀取一個Query,如果該字串不在Table中,那麼加入該字串,並且將Value值設爲1;如果該字串在Table中,那麼將該字串的計數加一即可。最終我們在O(N)的時間複雜度內完成了對該海量數據的處理。

本方法相比算法一:在時間複雜度上提高了一個數量級,但不僅僅是時間複雜度上的優化,該方法只需要IO數據文件一次,而算法一的IO次數較多的,因此該算法比算法一在工程上有更好的可操作性。


 

第二步:找出Top 10

算法一:排序

我想對於排序算法大家都已經不陌生了,這裏不在贅述,我們要注意的是排序算法的時間複雜度是NlgN,在本題目中,三百萬條記錄,用1G內存是可以存下的。

算法二:部分排序

題目要求是求出Top 10,因此我們沒有必要對所有的Query都進行排序,我們只需要維護一個10個大小的數組,初始化放入10Query,按照每個Query的統計次數由大到小排序,然後遍歷這300萬條記錄,每讀一條記錄就和數組最後一個Query對比,如果小於這個Query,那麼繼續遍歷,否則,將數組中最後一條數據淘汰,加入當前的Query。最後當所有的數據都遍歷完畢之後,那麼這個數組中的10個Query便是我們要找的Top10了。

不難分析出,這樣的算法的時間複雜度是N*K, 其中K是指top多少。

算法三:堆

在算法二中,我們已經將時間複雜度由NlogN優化到NK,不得不說這是一個比較大的改進了,可是有沒有更好的辦法呢?

分析一下,在算法二中,每次比較完成之後,需要的操作複雜度都是K,因爲要把元素插入到一個線性表之中,而且採用的是順序比較。這裏我們注意一下,該數組是有序的,一次我們每次查找的時候可以採用二分的方法查找,這樣操作的複雜度就降到了logK,可是,隨之而來的問題就是數據移動,因爲移動數據次數增多了。不過,這個算法還是比算法二有了改進。

基於以上的分析,我們想想,有沒有一種既能快速查找,又能快速移動元素的數據結構呢?回答是肯定的,那就是堆。藉助堆結構,我們可以在log量級的時間內查找和調整/移動。因此到這裏,我們的算法可以改進爲這樣,維護一個K(該題目中是10)大小的小根堆,然後遍歷300萬的Query,分別和根元素進行對比。。。

那麼這樣,這個算法發時間複雜度就降到了NlogK,和算法而相比,又有了比較大的改進。


結語:

至此,我們的算法就完全結束了,經過步驟一和步驟二的最優結合,我們最終的時間複雜度是O(N) + O(N’)logK。如果各位有什麼好的算法,歡迎跟帖討論。

此條目由 pkuoliver 發表在 搜索引擎筆試面試算法過招 分類目錄,並貼了 TopK排序百度算法 標籤。將固定鏈接加入收藏夾。

TOP K算法詳細解析—百度面試》上有 10 條評論

  1. yinhex 在 2011 年 3 月 8 日下午 5:37 說道:

    第二種方法知道了每個query的數量,但是還是怎麼獲得top10 啊?我可能理解的有問題!謝謝?

  2. 程序是分兩步走的。在第二步中有詳細說明。

  3. Pingback 引用通告: 騰訊實習生筆試面試總結(1) | 白色之夜

  4. Pingback 引用通告: 應聘總結之騰訊實習生(1) | 愛傑網

  5. zhang 在 2011 年 6 月 20 日上午 8:01 說道:

    問個問題哈,這個最熱門的10個查詢串需要統計精確的結果嗎?
    感覺應該不是的呀

    • pkuoliver在 2011 年 6 月 20 日上午 9:20 說道:

      是的。需要精確統計。
      當然了,實際應用中會有些同義實體處理,例如“北京大學”=“北大”。這兩個最爲一個Query來對待。在這個面試題不需考慮這種情況。

  6. Prowindy 在 2011 年 6 月 30 日上午 5:37 說道:

    這裏糾正一下,“算法二:部分排序……只需要維護一個10個大小的數組”這個算法的複雜度是N*2而不是N*K,因爲作爲一個堆棧,每個元素進出頂多一次,因此最壞複雜度N*2,這個方法優於堆

    • pkuoliver在 2011 年 7 月 22 日上午 6:08 說道:

      這裏是使用一個數組(不是棧),每次要對比元素大小,因此,最壞情況下是O(K),你所講的複雜度爲2的情況是屏蔽了內部操作。
      當然了,如果用最小棧(經過改進的棧結構,加了指針,返回棧內最小元素的時間複雜度O(1)),那麼每次只需要和棧最小元素對比。如果比最小元素小,則入棧,否則比較下一個元素,那麼這樣時間複雜度爲O(N),空間複雜度O(K),由於堆算法。

      非常感謝你的思路。

  7. fangjunjun 在 2011 年 10 月 28 日上午 12:26 說道:

    本方法相比算法一:在時間複雜度上提高了一個數量級,但不僅僅是時間複雜度上的優化,該方法只需要IO數據文件一次,而算法一的IO次數較多的,因此該算法比算法一在工程上有更好的可操作性。

    你不覺得這裏有問題麼?原始數據量仍然是1000萬條…..你怎麼一次讀入?300萬是你存入hash表以後得到的.!!

發表評論

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章