大數據排序算法總結學習

原創

2020-05-05 19:02

原址：https://blog.csdn.net/zhushuai1221/article/details/51781002

1、對於很大的數據量，考慮多級索引和桶排序；

2、建立一個足夠大的bit數組當作hash表，以bit數組的下標來表示一個整數，以bit位中的0或1來表示這個整數是否在這個數組中存在，適用於無重複原始數據的搜索，原來每個整數需要4byte空間變爲1bit，空間壓縮率爲32倍，擴展後可實現其他類型（包括重複數據）的搜索

3、bigdata排序思路

a.把一個bigdata文件拆分成N個小文件，小文件容量小於當前機器的內存

b.對小文件進行排序處理

c.對小文件進行並歸排序,一個個並歸生成新的排序完成的文件，直到全部並歸完成

4、位圖，有容忍誤差

bitmap算法的講解：https://www.cnblogs.com/senlinyang/p/7885685.html

可以運用在快速查找、去重、排序、壓縮數據等

延伸應用：布隆過濾器，https://blog.csdn.net/hguisu/article/details/7866173

5、內排和外排（map-reduce）

多路歸併，小文件有序，依次從每個小文件開頭取數據放入空白文件裝填。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

劍指Offer-在排序數組中查找數字 I

46.在排序數組中查找數字 I 統計一個數字在排序數組中出現的次數。示例 1: 輸入: nums = [5,7,7,8,8,10], target = 8 輸出: 2 示例 2: 輸入: nums = [5,7,7,8,8,

2020-07-08 12:20:23

LeetCode-452. 用最少數量的箭引爆氣球

LeetCode-452. 用最少數量的箭引爆氣球在二維空間中有許多球形的氣球。對於每個氣球，提供的輸入是水平方向上，氣球直徑的開始和結束座標。由於它是水平的，所以y座標並不重要，因此只要知道開始和結束的x座標就足夠了。開始座標

2020-07-08 12:20:23

LeetCode-680. 驗證迴文字符串

LeetCode-680. 驗證迴文字符串給定一個非空字符串 s，最多刪除一個字符。判斷是否能成爲迴文字符串。示例 1: 輸入: "aba" 輸出: True 示例 2: 輸入: "abca" 輸出: True 解釋: 你可

2020-07-08 12:20:23

基本數據結構——線性結構（列表/無序表）

1.什麼是列表（List）? 一個數據項按照相對位置存放的數據集。特別的，被稱爲“無序表(unordered list)”，其中數據項只按照存放位置來索引，如第1個、第2個…、最後一個等。如一個考試分數的集合“54,26,93,

weixin_38324954

2020-07-08 11:06:53

算法複雜度評價指標（大o表示法）

大O表示法（1）常見的大o數量級函數（2）其他算法複雜度表示法基本操作數量函數T(n)的精確值並不是特別重要，重要的是Tn(n)中起決定性因素的主導部分。用動態的眼光看，就是當問題規模增大的時候，T(n)中的一些部分會蓋過其他部

weixin_38324954

2020-07-08 11:06:52

“變位詞”判斷問題及算法複雜度

解法1 逐字檢查解法思路：將詞1中的字符逐個到詞2中檢查是否存在，存在就打勾標記（防止重複檢查）。如果每個字符都能找到，則兩個詞是變位詞。只要有一個字符找不到，就不是變位詞。實現打勾標記：將詞2對應字符設爲None,由於

weixin_38324954

2020-07-08 11:06:52

基本數據結構——線性結構（有序表）

1. 什麼是有序表（OrderedList）有序表是一種數據項依照其某可比性質（如整數大小、字母表先後）來決定在列表中的位置。越“小”的數據項越靠近列表的頭，越靠“前”。 2.抽象數據類型有序表（OrderedList）定義的

weixin_38324954

2020-07-08 11:06:52

python兩種內置數據類型（列表list和字典dict）上各個操作的大O數量級

python兩種內置數據類型（列表list和字典dict）上各個操作的大O數量級 1.對比list和dict操作 2.list列表數據類型常用操作性能 (1)按索引取值和賦值（v=a[i],a[i]=v）由於列表的隨機訪問特性

weixin_38324954

2020-07-08 11:06:52

基本數據結構——線性結構（棧）

1.什麼是線性結構線性結構是一種有序數據項的集合，其中每個數據項都有唯一的前驅和後繼（除了第一個沒有前驅，最後一個沒有後繼）。新的數據項加入到數據集中時，只會加入到原有某個數據項之前或之後。具有這種性質的數據集，就稱爲線性結構。

weixin_38324954

2020-07-08 11:06:52

基本數據結構——線性結構（隊列、雙端隊列）

1. 什麼是隊列？隊列是一種有次序的數據集合，其特徵是新數據項的添加總髮生在一端（通常稱爲“尾端”），而現存數據項的移除總髮生在另一端（通常稱爲“首front”端）。新加入的數據項必須在數據集末尾等待，而等待時間最長的數據項則

weixin_38324954

2020-07-08 11:06:52

遞歸(Recursion)及其應用

1. 什麼是遞歸遞歸是一種解決問題的方法，其精髓在於將問題分解爲規模更小的相同問題，持續分解，直到問題規模小到可以用非常簡單直接的方式來解決。遞歸問題分解方式非常獨特，其算法方面的明顯特徵就是：在算法流程中調用自身。 2. 遞

weixin_38324954

2020-07-08 11:06:52

未理解的題

關於樹的深度優先搜索算法描述錯誤的是 A : 按照某個條件往前試探搜索,如果前進中遭遇失敗, 則退回頭另選通路繼續搜索,直到找到條件目標爲止 B: 先訪問該節點所有的子節點, 遍歷完畢後選取它未訪問過的子節點重複上述過程,直到找到

2020-07-08 10:56:02

按位與& 和模運算 % 的關係

unsigned int MAX = 32; // 2的5次方 unsigned int index = 31; index = (index + 100) % MAX; printf ("inde

2020-07-08 10:56:02

位運算判斷兩個數是否異號

首先介紹下負數在計算機中的表示和存儲在計算機系統中，數值一律用補碼錶示和存儲。含符號位和數值位，符號位：0表示“正”； 1表示“負”。正數的補碼 = 原碼負數的補碼 = 負數的原碼取反（符號位保持不變）+ 1 列如比如

2020-07-08 10:56:01

按位或與加法的區別

0 | 0 = 0 1 | 1 = 1 0 | 1 = 1 1 | 0 = 1 0 ^ 0 = 0 1 ^ 1 = 0 0 ^ 1 = 1 1 ^ 0 = 1 0 & 0 = 0 1 &

2020-07-08 10:56:01

24小時熱門文章

最新文章

最新評論文章