常見海量數據處理面試題總結

1. http://taop.marchtea.com/09.03.html

套路:hash映射+hashmap統計+排序

1) hash映射:將大文件中的數據通過取模運算映射到很多小文件中,取模運算可以保證同一個數據值被映射到同一個小文件中;

2) hashmap統計:分別對每個小文件進行處理,統計小文件中同一個數據值的出現次數,得到每個小文件中出現次數最多的數據值;

3) 排序:對2)得到的結果進行排序或者partition,得到出現次數最多/排名前TopN的數據值。

2. http://blog.csdn.net/v_july_v/article/details/6279498

from 七月算法的總結

發佈了45 篇原創文章 · 獲贊 2 · 訪問量 9萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章