原址:https://blog.csdn.net/zhushuai1221/article/details/51781002
1、對於很大的數據量,考慮多級索引和桶排序;
2、建立一個足夠大的bit數組當作hash表,以bit數組的下標來表示一個整數,以bit位中的0或1來表示這個整數是否在這個數組中存在,適用於無重複原始數據的搜索,原來每個整數需要4byte空間變爲1bit,空間壓縮率爲32倍,擴展後可實現其他類型(包括重複數據)的搜索
3、bigdata排序思路
a.把一個bigdata文件拆分成N個小文件,小文件容量小於當前機器的內存
b.對小文件進行排序處理
c.對小文件進行並歸排序,一個個並歸生成新的排序完成的文件,直到全部並歸完成
4、位圖,有容忍誤差
bitmap算法的講解:https://www.cnblogs.com/senlinyang/p/7885685.html
可以運用在快速查找、去重、排序、壓縮數據等
延伸應用:布隆過濾器,https://blog.csdn.net/hguisu/article/details/7866173
5、內排和外排(map-reduce)
多路歸併,小文件有序,依次從每個小文件開頭取數據放入空白文件裝填。