數據結構基礎--哈希表

哈希函數

輸入域無窮大
輸出域有邊界(1<<64)
輸入相同的樣本，一定得到相同的輸出結果
不同的樣本，有可能發生碰撞(結果相同)
在輸入源樣本量足夠大的情況下，結果將在輸出域上均勻分佈。

哈希函數的離散性,能夠打亂樣本規律。

哈希函數實現的方式

通過大量的異或，交換。打亂原本的樣本結構，放大樣本差異。

生成不相關的hash函數

正常一個hash函數的結果h爲16字節，每個字節爲一個16進制(0_9,af中的)的任意值。將前8爲作爲h1，後8位作爲h2。

通過h1 + k * h2生成一個新的結果。並且他將於原本的h無關。

哈希函數特性的使用

大任務(hash % n)分流成N個小任務。

經典哈希表

經典的哈希表結構通過數組+鏈表的結構實現

哈希表的結構

哈希表的本質是一個數組，數組中每一個元素稱爲一個箱子(bin)，箱子中存放的是鏈表，鏈表節點中存放的鍵值對。

哈希表存儲的過程

根據 key 計算出它的哈希值 h。
假設箱子的個數爲 n，那麼這個鍵值對應該放在第 (h % n) 個箱子中。
哈希值h相同，通過鏈表存儲在同一個箱子中。

自動擴容

當哈希表的效率因數組量過大造成損耗，進行擴容並重新簡歷哈希表

當某一個鏈表上的節點個數超過某個係數(負載因子)，將進行擴容。
擴容可以是離線的(在非活躍狀態下進行擴容，重建哈希表，重建結束後再使用新的哈希表)

增刪改查的時間複雜度

對key進行hash，通過下標尋址，查找一個短鏈表均爲常數時間操作。

時間複雜度===》O(1)

設計RandomPool結構

【題目】設計一種結構，在該結構中有如下三個功能：

insert(key)：將某個key加入到該結構，做到不重複加入。

delete(key)：將原本在結構中的某個key移除。

getRandom()：等概率隨機返回結構中的任何一個key。

【要求】 Insert、delete和getRandom方法的時間複雜度都是 O(1)

需要的結構：

兩個哈希表，一個size變量計數

每次添加一個新的key23：

令size+1
將key23作爲key，size作爲value，記錄在第一個hashMap中
將size作爲key，key23作爲value，記錄在第二個haskMap中

讀取隨機key時，在第二個hashMap中用(1~size)作爲key進行查詢返回

刪除key時，將末尾元素與刪除元素的index互換，刪除該元素。並將size-1。

布隆過濾器BloomFilter

布隆過濾器可以用於檢索一個元素是否在一個集合中。它的優點是空間效率和查詢時間都比一般的算法要好的多，缺點是有一定的誤識別率和刪除困難。

可以解決爬蟲去重，黑名單問題。

實現一個bit類型數組，將數據容量擴容

建立一個[基礎類型]類型的數組
一個Int類型可以表示成32bit的二進制數據，long類型則是64bit
一個[Int]數組將是普通數組的32倍容量

以一個100長度的Int數組([bit]長度爲3200)arr爲例，當我們想修改第3000個bit：

3000/32獲得arr組的indexI
3000%32獲得arr[indexI]下，[bit]想要修改的indexB
通過arr[indexI] = (arr[IndexI] | (1 << indexB))進行修改

1左移indexB個位置，將會變成00000010000這種形式。然後與原本的arr[IndexI]相交，對應位置將會被修改爲1

可以用矩陣，將數據容量繼續擴容

以Int數組爲例

[1000]的數組可以代表3200個bit位

[1000][1000]的矩陣則可以代表3200*1000個bit位

布隆過濾器的實現

準備一個長度爲m的數組，通常是bit數組
將指定的key用一個hash函數求出hash值
將hash % m 確定一個位置，並將該位置從0修改成1
重複用k不相關個hash函數，確定多個位置並修改成1

經過這個處理之後的數組，就是布隆過濾器。

當一個新的key進行查詢時，也通過多次hash計算，確定是否存在於布隆過濾器

布隆過濾器的誤差

由於數組長度的限制，有可能導致描黑位置過多，導致失誤命中概率過高。

通過調整hash函數個個數k，以及數組長度m。可以得到不同的失誤率。

布隆過濾器的優勢

由於內部通過hash函數定位，最終過濾器所佔內存的大小與單樣本的內存大小無關。

比如一個長度爲1000000的字符串，也並不需要存進數組。只需要在數組中修改k個位置即可。

布隆過濾器長度公式

[bit]的長度m，樣本量n，預期失誤率p，ln是自然對數

布隆過濾器hash函數個數公式

布隆過濾器真是失誤率

當m和k確定之後的失誤率

經典服務器抗壓結構

通過對key進行hash % n 可以將讀寫的壓力均勻的分佈給三個服務器

而這種結構，當加入新的服務器或減少原有的服務器。我們需要像hashMap的自動擴容一樣需要重建整個映射。

一致性哈希

經典抗壓結構在擴容時，需要對數據做全量遷移，計算每一條數據的歸屬。

一致性哈希可以降低數據遷移的代價，同時保證負載均衡。

正常的工作流程

根據關鍵信息計算出三個負載服務器的hashCode：h1,h2,h3。
將三個值交由前方的前段服務器持有
當進行讀寫操作時，對key進行hash，用二分的方式尋找順時針方向最近的負載服務器並交付。

數據遷移的流程

只需要將黑色部分數據從1號服務器遷移給4號服務器即可。

虛擬節點技術

通過將每個服務器分配N個虛擬節點映射，讓整個環上的分割區域約等於平均。

參考資料

左神牛課網算法課

數據結構基礎--哈希表

哈希函數

哈希函數

哈希函數實現的方式

生成不相關的hash函數

哈希函數特性的使用

經典哈希表

哈希表的結構

哈希表存儲的過程

自動擴容

增刪改查的時間複雜度

設計RandomPool結構

需要的結構：

布隆過濾器BloomFilter

實現一個bit類型數組，將數據容量擴容

可以用矩陣，將數據容量繼續擴容

布隆過濾器的實現

布隆過濾器的誤差

布隆過濾器的優勢

布隆過濾器長度公式

布隆過濾器hash函數個數公式

布隆過濾器真是失誤率

經典服務器抗壓結構

一致性哈希

虛擬節點技術

參考資料

網絡協議TCP/IP、UDP、Http、Socket、XMPP區別簡而言之：

開閉原則 -- 設計原則、模式的核心

如何優化UITableView性能—draw方式

行爲模式--觀察者模式

模板模式--可複用流程的局部定製

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結