1. http://taop.marchtea.com/09.03.html
套路:hash映射+hashmap統計+排序
1) hash映射:將大文件中的數據通過取模運算映射到很多小文件中,取模運算可以保證同一個數據值被映射到同一個小文件中;
2) hashmap統計:分別對每個小文件進行處理,統計小文件中同一個數據值的出現次數,得到每個小文件中出現次數最多的數據值;
3) 排序:對2)得到的結果進行排序或者partition,得到出現次數最多/排名前TopN的數據值。
2. http://blog.csdn.net/v_july_v/article/details/6279498
from 七月算法的總結