海量數據排序

原創

2020-02-24 13:09

海量數據排序

2011-04-12 19:33

1億數據找出最大的1w個

1. 分塊法

解法：A. 採用分塊法，將1億數據分成100w一塊，共100塊。

B. 對每塊進行快速排序，分成兩堆，如果大堆大於1w個，則對大堆再次進行快速排序，直到小於等於1w停止

（假設此時大堆有N個），此時對小堆進行排序，取最大的10000-N個，這樣就找到了這100w中最大的1w個。

C. 100塊，每塊選出最大的1w，再對這100w使用同樣的方法，找出最大的1w個

2. Bit-Map

適用範圍：可進行數據的快速查找，判重，刪除，一般來說數據範圍是int的10倍以下

解法：用一個例子來說明吧，這樣直觀一點。

假設對7, 6, 3, 5這四個數進行排序，首先初始化一個byte，8位，可表示爲0 0 0 0 0 0 0 0

對於7，將第七位置1，對剩下幾個數執行同樣操作，則最後該byte變爲 0 0 1 0 1 1 1 0

最後一步，遍歷，將置1位的序號逐個輸出，即3，5， 6，7

3. 紅黑樹

解法：用一個紅黑樹維護這1w個數，然後遍歷其他數字，來替換紅黑樹中最小的數（這是在網上看到的算法，

我感覺用贏者樹也是可以的）

如果數據中有重複，則對於Bit-Map，找出前1w個數，對這1w個數建立Hash Table，然後再次遍歷這一億個數，同時對Hash Table中的數字計數，最後根據計數找出前1w個（包含重複）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

MySQL 核心模塊揭祕 * 19 期 * 鎖模塊裏有什麼？什麼樣？

InnoDB 中管理表鎖和行鎖的鎖模塊，也就是傳說中的鎖子系統，在內存裏是什麼樣的？作者：操盛春，愛可生技術專家，公衆號『一樹一溪』作者，專注於研究 MySQL 和 OceanBase 源碼。愛可生開源社區出品，原創內容未經授權不得隨

2024-06-06 11:58:40

peewee的動態Model

有一個客戶需要同一個Model，可以創建不同的數據庫的表單（自定表單名稱）。按官方文檔，自定義table_name的方法如下： from peewee import * contacts_db = SqliteDatabase('con

2024-05-31 21:48:26

[CSS]CSS浮動塌陷及解決辦法

一. CSS浮動先看一個例子 <html !DOCTYPE> <head> <title>HTML2</title> <style> .div-outer {

2024-05-13 23:37:32

mysql存量表數據碎片與索引碎片優化

背景最近領導分配了個任務，測試sit環境一些功能相比之前慢了許多，需要優化一下。問題排查過程瀏覽器F12查看相關接口的響應，看到底是哪個接口反應慢，根據互聯網的要求，頁面3秒還沒有顯示出來，用戶體驗會非常差。查看相關代碼的提交

2024-05-13 21:34:00

vxe-table的合併行以及同一行的合併列

vxe-table 是一款優秀的前段插件,可以採用雙向綁定快速的顯示錶格內容,頁面元素使用即時插入的方式,讓頁面更順滑 ,今天來討論一下vxe-table的合併行以及同一行的合併列合併需要使用的屬性是 : span-met

2024-04-19 00:53:28

Java遊戲服務器3

1)編碼消息長度(short int-->2個字節) + 消息編號(short int--》2個字節) + 消息體 2)Protobuf協議文檔 (1)syntax="proto3"; (2)命名格式

2024-05-14 02:04:28

Monibuca v5 實現優雅內存分配器

背景 v4 中使用了鏈表存儲了不同大小的內存塊的方式進行內存池的實現（參考這篇v4內存複用機制），實際測試中發現內存浪費比較嚴重，因此如何設計出使用效率高，操作簡潔的內存池就成了 v5 的一個任務。使用 make 使用 go 原生的內存分

2024-04-09 00:52:16

Java包裝類型

Java有8種基本數據類型，每種基本數據類型都提供了一種對應的包裝類型，從 Java 5 開始引入了自動裝箱/拆箱機制，使得二者可以相互轉換。原始類型: boolean，char，byte，short，int，long，float，do

2024-03-28 12:33:57

智慧家庭場景的推薦系統的發展歷程和方向 | InfoQ《公開課》

直播概要：隨着計算機的蓬勃發展，互聯網進入大數據和人工智能時代，爲了解決信息過載和長尾商品，推薦系統成爲唯一選擇，而面對不同的業務場景，爲了解決業務痛點，會根據不同的場景特點尋找不同的方法和手段來解決推薦中實際遇到的問題。在智慧家庭領域，

InfoQ 中文站

2021-12-21 10:54:01

Alexa 全球排名網站將關閉，排名曾引爭議

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-14 14:53:55

Thinking Above Code：TLA+思維概述

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-12-07 17:23:58

你的2.6朵雲裏，會有火山引擎嗎？

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-07 10:28:54

數字化轉型這麼火，你真的看懂了嗎？

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-02 21:08:57

基於圖像的機器學習技術將數十億的電子商務產品分爲數千個類別

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-29 16:28:50

如何用 PyTorch 構建 GAN？

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-23 11:18:54

24小時熱門文章

最新文章

最新評論文章