大數據排序算法總結學習

原址:https://blog.csdn.net/zhushuai1221/article/details/51781002

1、對於很大的數據量,考慮多級索引和桶排序;

 

2、建立一個足夠大的bit數組當作hash表,以bit數組的下標來表示一個整數,以bit位中的0或1來表示這個整數是否在這個數組中存在,適用於無重複原始數據的搜索,原來每個整數需要4byte空間變爲1bit,空間壓縮率爲32倍,擴展後可實現其他類型(包括重複數據)的搜索

 

3、bigdata排序思路

          a.把一個bigdata文件拆分成N個小文件,小文件容量小於當前機器的內存

          b.對小文件進行排序處理

          c.對小文件進行並歸排序,一個個並歸生成新的排序完成的文件,直到全部並歸完成

 

4、位圖,有容忍誤差

bitmap算法的講解:https://www.cnblogs.com/senlinyang/p/7885685.html

可以運用在快速查找、去重、排序、壓縮數據等

延伸應用:布隆過濾器,https://blog.csdn.net/hguisu/article/details/7866173

 

5、內排和外排(map-reduce)

多路歸併,小文件有序,依次從每個小文件開頭取數據放入空白文件裝填。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章