漫畫算法：什麼是外部排序？

原創

绝圣弃智-零

2020-06-10 16:27

背景

西天取經的路上，一樣上演着編程的樂趣.....

排序的時候我們可以選擇快速排序或歸併排序等算法。爲了方便，我們把排序好的2G有序數據稱之爲有序子串吧。接着我們可以把兩個小的有序子串合併成一個大的有序子串。

注意：讀取的時候是每次讀取一個int數，通過比較之後在輸出。

按照這個方法來回合併，總共經過三次合併之後就可以得到8G的有序子串。

接下來把12個數據分成4份，然後排序成有序子串

然後把子串進行兩兩合併

輸出哪個元素，就在那個元素所在的有序子串再次讀入一個元素

繼續

重複直到合併成一個包含6個int的有序子串

再把兩個包含6個int的有序子串合併成一個包含12個int數據的最終有序子串

優化策略

解釋下：例如對於數據2，我們把無序的12個數據分成有序的4個子串需要讀寫各一次，把2份3個有序子串合併成6個有序子串讀寫各一次；把2份6個有序子串合併從12個有序子串讀寫各一次，一共需要讀寫各3次。

多路歸併

爲了方便講解，我們假設內存一共可以裝4個int型數據。

置換選擇

例如我們可以從12個數據讀取3個存到內存中，然後從內存中選出最小的那個數放進子串p1裏；

之後再從在從剩餘的9個數據讀取一個放到內存中，然後再從內存中選出一個數放進子串p1裏，這個數必須滿足比p1中的其他數大，且在內存中儘量小。

這樣一直重複，直到內存中的數都比p1中的數小，這時p1子串存放結束，繼續來p2子串的存放。例如(這時假設內存只能存放3個int型數據)：

12個無序的int數據

讀入3個到內存中，且選出一個最小的到子串p1

從內存中再次讀取一個元素86

從內存中再次讀取一個元素3

從內存中再次讀取一個元素24

從內存中再次讀取一個元素8

這個時候，已經沒有符合要求的數了，且內存已滿，進而用p2子串來存放，以此類推。

通過這種方法，p1子串存放了4個數據，而原來的那種方法p1子串只能存放3個數據。

從12個數據中讀取3個數據，構建成一個最小堆，然後從堆頂選擇一個數寫入到p1中。

之後再從剩餘的9個數中讀取一個數，如果這個數比剛纔那個寫入到p1中的數大，則把這個數插入到最小堆中，重新調整最小堆結構，然後在堆頂選一個數寫入到p1中。

否則，把這個數暫放在一邊，暫時不處理。之後一樣需要調整堆結構，從堆頂選擇一個數寫入到p1中。

這裏說明一下，那個被放在一邊的數是不能再放入p1中的了，因爲它一定比p1中的數都要小，所以它會放在下一個子串中

看這些文字會讓人頭大，我畫圖解釋下吧。

從12數據讀取3個數據

構建最小堆，且選出目標數

讀入下一個數86

讀入下一個數3，比70小，暫放一邊，不加入堆結構中

讀入下一個數據24，比81小，不加入堆結構

讀入下一個數據8，比86小，不加入堆結構。此時p1已經完成了，把那些剛纔暫放一邊的數重新構成一個堆，繼續p2的存放。

以此類推...

最後生成的p2如下：

這種方法適合要排序的數據太多，以至於內存一次性裝載不下。只能通過把數據分幾次的方式來排序，我們也把這種方法稱之爲外部排序

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

劍指Offer-在排序數組中查找數字 I

46.在排序數組中查找數字 I 統計一個數字在排序數組中出現的次數。示例 1: 輸入: nums = [5,7,7,8,8,10], target = 8 輸出: 2 示例 2: 輸入: nums = [5,7,7,8,8,

2020-07-08 12:20:23

LeetCode-452. 用最少數量的箭引爆氣球

LeetCode-452. 用最少數量的箭引爆氣球在二維空間中有許多球形的氣球。對於每個氣球，提供的輸入是水平方向上，氣球直徑的開始和結束座標。由於它是水平的，所以y座標並不重要，因此只要知道開始和結束的x座標就足夠了。開始座標

2020-07-08 12:20:23

LeetCode-680. 驗證迴文字符串

LeetCode-680. 驗證迴文字符串給定一個非空字符串 s，最多刪除一個字符。判斷是否能成爲迴文字符串。示例 1: 輸入: "aba" 輸出: True 示例 2: 輸入: "abca" 輸出: True 解釋: 你可

2020-07-08 12:20:23

基本數據結構——線性結構（列表/無序表）

1.什麼是列表（List）? 一個數據項按照相對位置存放的數據集。特別的，被稱爲“無序表(unordered list)”，其中數據項只按照存放位置來索引，如第1個、第2個…、最後一個等。如一個考試分數的集合“54,26,93,

weixin_38324954

2020-07-08 11:06:53

算法複雜度評價指標（大o表示法）

大O表示法（1）常見的大o數量級函數（2）其他算法複雜度表示法基本操作數量函數T(n)的精確值並不是特別重要，重要的是Tn(n)中起決定性因素的主導部分。用動態的眼光看，就是當問題規模增大的時候，T(n)中的一些部分會蓋過其他部

weixin_38324954

2020-07-08 11:06:52

“變位詞”判斷問題及算法複雜度

解法1 逐字檢查解法思路：將詞1中的字符逐個到詞2中檢查是否存在，存在就打勾標記（防止重複檢查）。如果每個字符都能找到，則兩個詞是變位詞。只要有一個字符找不到，就不是變位詞。實現打勾標記：將詞2對應字符設爲None,由於

weixin_38324954

2020-07-08 11:06:52

基本數據結構——線性結構（有序表）

1. 什麼是有序表（OrderedList）有序表是一種數據項依照其某可比性質（如整數大小、字母表先後）來決定在列表中的位置。越“小”的數據項越靠近列表的頭，越靠“前”。 2.抽象數據類型有序表（OrderedList）定義的

weixin_38324954

2020-07-08 11:06:52

python兩種內置數據類型（列表list和字典dict）上各個操作的大O數量級

python兩種內置數據類型（列表list和字典dict）上各個操作的大O數量級 1.對比list和dict操作 2.list列表數據類型常用操作性能 (1)按索引取值和賦值（v=a[i],a[i]=v）由於列表的隨機訪問特性

weixin_38324954

2020-07-08 11:06:52

基本數據結構——線性結構（棧）

1.什麼是線性結構線性結構是一種有序數據項的集合，其中每個數據項都有唯一的前驅和後繼（除了第一個沒有前驅，最後一個沒有後繼）。新的數據項加入到數據集中時，只會加入到原有某個數據項之前或之後。具有這種性質的數據集，就稱爲線性結構。

weixin_38324954

2020-07-08 11:06:52

基本數據結構——線性結構（隊列、雙端隊列）

1. 什麼是隊列？隊列是一種有次序的數據集合，其特徵是新數據項的添加總髮生在一端（通常稱爲“尾端”），而現存數據項的移除總髮生在另一端（通常稱爲“首front”端）。新加入的數據項必須在數據集末尾等待，而等待時間最長的數據項則

weixin_38324954

2020-07-08 11:06:52

遞歸(Recursion)及其應用

1. 什麼是遞歸遞歸是一種解決問題的方法，其精髓在於將問題分解爲規模更小的相同問題，持續分解，直到問題規模小到可以用非常簡單直接的方式來解決。遞歸問題分解方式非常獨特，其算法方面的明顯特徵就是：在算法流程中調用自身。 2. 遞

weixin_38324954

2020-07-08 11:06:52

未理解的題

關於樹的深度優先搜索算法描述錯誤的是 A : 按照某個條件往前試探搜索,如果前進中遭遇失敗, 則退回頭另選通路繼續搜索,直到找到條件目標爲止 B: 先訪問該節點所有的子節點, 遍歷完畢後選取它未訪問過的子節點重複上述過程,直到找到

2020-07-08 10:56:02

按位與& 和模運算 % 的關係

unsigned int MAX = 32; // 2的5次方 unsigned int index = 31; index = (index + 100) % MAX; printf ("inde

2020-07-08 10:56:02

位運算判斷兩個數是否異號

首先介紹下負數在計算機中的表示和存儲在計算機系統中，數值一律用補碼錶示和存儲。含符號位和數值位，符號位：0表示“正”； 1表示“負”。正數的補碼 = 原碼負數的補碼 = 負數的原碼取反（符號位保持不變）+ 1 列如比如

2020-07-08 10:56:01

按位或與加法的區別

0 | 0 = 0 1 | 1 = 1 0 | 1 = 1 1 | 0 = 1 0 ^ 0 = 0 1 ^ 1 = 0 0 ^ 1 = 1 1 ^ 0 = 1 0 & 0 = 0 1 &

2020-07-08 10:56:01

24小時熱門文章

最新文章

最新評論文章