simhash進行文本查重

有1億個不重複的64位的01字符串，任意給出一個64位的01字符串f，如何快速從中找出與f漢明距離小於3的字符串？

大規模網頁的近似查重

主要翻譯自WWW07的Detecting Near-Duplicates for Web Crawling

WWW上存在大量內容近似相同的網頁，對搜索引擎而言，去除近似相同的網頁可以提高檢索效率、降低存儲開銷。

當爬蟲在抓取網頁時必須很快能在海量文本集中快速找出是否有重複的網頁。

論文主要2個貢獻：

1. 展示了simhash可以用以海量文本查重

2. 提出了一個在實際應用中可行的算法。

兩篇文本相似度普遍的定義是比較向量化之後兩個詞袋中詞的交集程度，有cosine,jaccard等等

如果直接使用這種計算方式，時間空間複雜度都太高，因此有了simhash這種降維技術，

但是如何從傳統的向量相似度能用simhash來近似，論文沒提，應該是有很長一段推導要走的。

Simhash算法

一篇文本提取出內容以後，經過基本的預處理，比如去除停詞，詞根還原，甚至chunking，最後可以得到一個向量。

對每一個term進行hash算法轉換，得到長度f位的hash碼，每一位上1-0值進行正負權值轉換，例如f1位是1時，權值設爲 +weight, fk位爲0時，權值設爲-weight。

講文本中所有的term轉換出的weight向量按f對應位累加最後得到一個f位的權值數組，位爲正的置1，位爲負的置0，那麼文本就轉變成一個f位的新1-0數組，也就是一個新的hash碼。

Simhash具有兩個“衝突的性質”：

1. 它是一個hash方法

2. 相似的文本具有相似的hash值，如果兩個文本的simhash越接近，也就是漢明距離越小，文本就越相似。

因此海量文本中查重的任務轉換位如何在海量simhash中快速確定是否存在漢明距離小的指紋。

也就是：在n個f-bit的指紋中，查詢漢明距離小於k的指紋。

在文章的實驗中（見最後），simhash採用64位的哈希函數。在80億網頁規模下漢明距離=3剛好合適。

因此任務的f-bit=64 , k=3 , n= 8*10^11

任務清晰，首先看一下兩種很直觀的方法：

1. 對輸入指紋，枚舉出所有漢明距離小於3的simhash指紋，對每個指紋在80億排序指紋中查詢。

（這種方法需要進行C（64，3）=41664次的simhash指紋，再爲每個進行一次查詢）

2. 輸入指紋不變，對應集合相應位置變。也就是集合上任意3位組合的位置進行變化，實際上就是提前準備41664個排序可能，需要龐大的空間。輸入在這羣集合並行去搜....

提出的方法介於兩者之間，合理的空間和時間的折中。

• 假設我們有一個已經排序的容量爲2^d，f-bit指紋集。看每個指紋的高d位。該高低位具有以下性質：儘管有很多的2^d位組合存在，但高d位中有隻有少量重複的。

• 現在找一個接近於d的數字d’，由於整個表是排好序的，所以一趟搜索就能找出高d’位與目標指紋F相同的指紋集合f’。因爲d’和d很接近，所以找出的集合f’也不會很大。

• 最後在集合f’中查找和F之間海明距離爲k的指紋也就很快了。

• 總的思想：先要把檢索的集合縮小，然後在小集合中檢索f-d’位的海明距離

要是一時半會看不懂，那就從新回顧一下那兩種極端的辦法：

方法2，前61位上精確匹配，後面就不需要比較了

方法1，前0位上精確匹配，那就要在後面，也就是所有，上比較

那麼折中的想法是前d- bits相同，留下3bit在(64-d)bit小範圍搜索，可行否?

d-bits的表示範圍有2^d，總量N個指紋，平均每個表示後面只有N/(2^d)個
快速定位到前綴是d的位置以後，直接比較N/(2^k)個指紋。

如此只能保證前d位精確的那部分N/(2^d)指紋沒有遺漏漢明距離>3的

因此要保證64bits上所有部分都安全，全部纔沒有遺漏。
方法2其實就是把所有的d=61 部分(也就是64選61)都包含了。

按照例子，80億網頁有2^34個，那麼理論上34位就能表示完80億不重複的指紋。

我們假設最前的34位的表示完了80億指紋，假設指紋在前30位是一樣的，那麼後面4位還可以表示2⁴個，只需要逐一比較這16個指紋是否於待測指紋漢明距離小於3。

假設：對任意34位中的30位都可以這麼做。

因此在一次完整的查找中，限定前q位精確匹配（假設這些指紋已經是q位有序的，可以採用二分查找，如果指紋量非常大，且分佈均勻，甚至可以採用內插搜索），之後的2^d-q個指紋剩下64-q位需要比較漢明距離小於3。

於是問題就轉變爲如何切割64位的q。

將64位平分成若干份，例如4份ABCD，每份16位。

假設這些指紋已經按A部分排序好了，我們先按A的16位精確匹配到一個區間，這個區間的後BCD位檢查漢明距離是否小於3。

同樣的假設，其次我們按B的16位精確匹配到另一個區間，這個區間的所有指紋需要在ACD位上比較漢明距離是否小於3。

同理還有C和D

所以這裏我們需要將全部的指紋T複製4份，T1 T2 T3 T4， T1按A排序，T2按B排序… 4份可以並行進行查詢，最後把結果合併。這樣即使最壞的情況：3個位分別落在其中3個區域ABC,ACD,BCD,ABD…都不會被漏掉。

只精確匹配16位，還需要逐一比較的指紋量依然龐大，可能達到2^d-16個，我們也可以精確匹配更多的。

例如：將64位平分成4份ABCD，每份16位，在BCD的48位上，我們再分成4份，WXZY，每份12位，漢明距離的3位可以散落在任意三塊，那麼A與WXZY任意一份合起來做精確的28位…剩下3份用來檢查漢明距離。同理B，C，D也可以這樣，那麼T需要複製16次，ABCD與WXYZ的組合做精確匹配，每次精確匹配後還需要逐一比較的個數降低到2^d-28個。不同的組合方式也就是時間和空間上的權衡。

最壞情況是其中3份可能有1位漢明距離差異爲1。

算法的描述如下：

1）先複製原表T爲Tt份：T1,T2,….Tt

2）每個Ti都關聯一個pi和一個πi，其中pi是一個整數,πi是一個置換函數，負責把pi個bit位換到高位上。

3）應用置換函數πi到相應的Ti表上，然後對Ti進行排序

4）然後對每一個Ti和要匹配的指紋F、海明距離k做如下運算：

a) 然後使用F’的高pi位檢索，找出Ti中高pi位相同的集合

b) 在檢索出的集合中比較f-pi位，找出海明距離小於等於k的指紋

5）最後合併所有Ti中檢索出的結果

由於文本已經壓縮成8個字節了，因此其實Simhash近似查重精度並不高：

最後：

翻譯得有點粗，不好意思哈

相國

發佈了36 篇原創文章 · 獲贊 27 · 訪問量 23萬+

私信關注

simhash進行文本查重

教你用Perl實現Smgp協議

如何通過前端表格控件在10分鐘內完成一張分組報表？

win11關閉自動檢測病毒刪文件

千兆寬帶實際網速能到達多少？

頻繁項集挖掘之apriori和fp-growth

kaggle competition 之 Titanic: Machine Learning from Disaster

隨機交換（swap randomization）的python實現

elasticsearch學習入門

一個數據挖掘算法的項目:dami

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結