☕【難點攻克技術系列】「海量數據計算系列」如何使用BitMap在海量數據中對相應的進行去重、查找和排序

BitMap（位圖）的介紹

BitMap從字面的意思，很多人認爲是位圖，其實準確的來說，翻譯成基於位的映射，其中數據庫中有一種索引就叫做位圖索引。

在具有性能優化的數據結構中，大家使用最多的就是hash表，是的，在具有定位查找上具有O(1)的常量時間，多麼的簡潔優美。但是數據量大了，內存就不夠了。此外，可以使用類似外排序來解決問題的，由於要走IO所以時間上又不行。

所謂的Bit-map就是用一個bit位來標記某個元素對應的Value，而Key即是該元素。由於採用了Bit爲單位來存儲數據，因此在存儲空間方面，可以節省。

BitMap（位圖）的應用

1）可進行數據的快速查找，判重，刪除，一般來說數據範圍是int的10倍以下。
2）去重數據而達到壓縮數據

BitMap（位圖）的原理

上面說了BitMap的基本思想就是用一個bit位來標記某個元素對應的Value，而Key即是該元素。由於採用了Bit爲單位來存儲數據。

BitMap（位圖）的案例

假設有這樣一個需求：在20億個隨機整數中找出某個數m是否存在其中，並假設32位操作系統，4G內存

在Java中，int佔4字節，1字節=8位（1 byte = 8 bit）

如果每個數字用int存儲，那就是20億個int，因而佔用的空間約爲 (2000000000*4/1024/1024/1024)≈7.45G
如果按位存儲就不一樣了，20億個數就是20億位，佔用空間約爲 (2000000000/8/1024/1024/1024)≈0.233G

如何表示一個數呢

每一位表示一個數，0表示不存在，1表示存在，這正符合二進制

這樣可以很容易表示{1,2,4,6}這幾個數：

計算機內存分配的最小單位是字節，也就是8位，那如果要表示{12,13,15}怎麼辦呢？當然是在另一個8位上表示了：

這樣的話，好像變成一個二維數組了

1個int佔32位，那麼我們只需要申請一個int數組長度爲 int tmp[1+N/32] 即可存儲，其中N表示要存儲的這些數中的最大值，於是乎：

tmp[0]：可以表示0~31
tmp[1]：可以表示32~63
tmp[2]：可以表示64~95

如此一來，給定任意整數M，那麼M/32就得到下標，M%32就知道它在此下標的哪個位置。

添加

怎麼把一個數放進去呢？例如，想把5這個數字放進去，怎麼做呢？

首先，5/32=0，5%32=5，也是說它應該在tmp[0]的第5個位置，那我們把1向左移動5位，然後按位或

換成二進制就是

這就相當於 86 | 32 = 118

86 | (1<<5) = 118
b[0] = b[0] | (1<<5)

要想插入一個數，將1左移帶代表該數字的那一位，然後與原數進行按位或操作

簡化一下，就是 86 + (5/8) | (1<<(5%8))

因此，公式可以概括爲：p + (i/8)|(1<<(i%8)) 其中，p表示現在的值，i表示待插入的數

清除

如果要清除該怎麼做呢？

還是上面的例子，假設我們要6移除，該怎麼做呢？

從圖上看，只需將該數所在的位置爲0即可

1左移6位，就到達6這個數字所代表的位，然後按位取反，最後與原數按位與，這樣就把該位置爲0了

b[0] = b[0] & (~(1<<6))

b[0] = b[0] & (~(1<<(i%8)))

查找

每一位代表一個數字，1表示有（或者說存在），0表示無（或者說不存在）。通過把該爲置爲1或者0來達到添加和清除的效果，那麼判斷一個數存不存在就是判斷該數所在的位是0還是1

假設，我們想知道3在不在，那麼只需判斷 b[0] & (1<<3) 如果這個值是0，則不存在，如果是1，就表示存在。

Bitmap快速排序

假設我們要對0-7內的5個元素(4,7,2,5,3)排序（這裏假設這些元素沒有重複）,我們就可以採用Bit-map的方法來達到排序的目的。要表示8個數，我們就只需要8個Bit（1Bytes），首先我們開闢1Byte的空間，將這些空間的所有Bit位都置爲0，然後將對應位置爲1。最後，遍歷一遍Bit區域，將該位是一的位的編號輸出（2，3，4，5，7），這樣就達到了排序的目的，時間複雜度O(n)。

優點：

運算效率高，不需要進行比較和移位；
佔用內存少，比如N=10000000；只需佔用內存爲N/8=1250000Byte=1.25M

缺點：

所有的數據不能重複。即不可對重複的數據進行排序和查找。
只有當數據比較密集時纔有優勢

Bitmap快速去重

20億個整數中找出不重複的整數的個數，內存不足以容納這20億個整數。
首先，根據“內存空間不足以容納這05億個整數”我們可以快速的聯想到Bit-map。下邊關鍵的問題就是怎麼設計我們的Bit-map來表示這20億個數字的狀態了。其實這個問題很簡單，一個數字的狀態只有三種，分別爲不存在，只有一個，有重複。因此，只需要2bits就可以對一個數字的狀態進行存儲了，假設我們設定一個數字不存在爲00，存在一次01，存在兩次及其以上爲11。那我們大概需要存儲空間2G左右。
接下來的任務就是把這20億個數字放進去（存儲），如果對應的狀態位爲00，則將其變爲01，表示存在一次；如果對應的狀態位爲01，則將其變爲11，表示已經有一個了，即出現多次；如果爲11，則對應的狀態位保持不變，仍表示出現多次。
最後，統計狀態位爲01的個數，就得到了不重複的數字個數，時間複雜度爲O(n)。

快速查找

int數組中的一個元素是4字節佔32位，那麼除以32就知道元素的下標，對32求餘數（%32）就知道它在哪一位，如果該位是1，則表示存在.

Bitmap的場景總結

Bitmap主要用於快速檢索關鍵字狀態，通常要求關鍵字是一個連續的序列（或者關鍵字是一個連續序列中的大部分），最基本的情況，使用1bit表示一個關鍵字的狀態（可標示兩種狀態），但根據需要也可以使用2bit（表示4種狀態），3bit（表示8種狀態）。
Bitmap的主要應用場合：表示連續（或接近連續，即大部分會出現）的關鍵字序列的狀態（狀態數/關鍵字個數越小越好）。
32位機器上，對於一個整型數，比如int a=1 在內存中佔32bit位，這是爲了方便計算機的運算。但是對於某些應用場景而言，這屬於一種巨大的浪費，因爲我們可以用對應的32bit位對應存儲十進制的0-31個數，而這就是Bit-map的基本思想。Bit-map算法利用這種思想處理大量數據的排序、查詢以及去重。

參考資料

https://blog.csdn.net/qq_41369135/article/details/116938671

☕【難點攻克技術系列】「海量數據計算系列」如何使用BitMap在海量數據中對相應的進行去重、查找和排序

BitMap（位圖）的介紹

BitMap（位圖）的應用

BitMap（位圖）的原理

BitMap（位圖）的案例

如何表示一個數呢

添加

換成二進制就是

清除

查找

Bitmap快速排序

優點：

缺點：

Bitmap快速去重

快速查找

Bitmap的場景總結

參考資料

這個網絡爬蟲代碼，拿到數據之後如何存到csv文件中去？

即刻放大鏡。跟隨鼠標，屏幕任意位置放大

【面試準備】【SQL】數據庫有哪些約束？

.NET開源強大、易於使用的緩存框架 - FusionCache

面試，有時候是個運氣活

【深入瞭解系統性能優化】「實戰技術專題」全方面帶你透徹探索服務優化技術方案（系統服務調優）

【Java技術專題】「攻破技術盲區」帶你攻破你很可能存在的Java技術盲點之動態性技術原理指南（反射技術專題）

【深入淺出Spring原理及實戰】「源碼調試分析」深入源碼探索Spring底層框架的的refresh方法所出現的問題和異常

【Spring專題】「技術原理」從源碼角度去深入分析關於Spring的異常處理ExceptionHandler的實現原理

【算法數據結構專題】「延時隊列算法」史上手把手教你針對層級時間輪（TimingWheel）實現延時隊列的開發實戰落地（下）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結