文本相似度計算_03

本文主要介紹餘下的兩種文本相似度的計算方式:

simhash + 漢明距離
minhash

simhash+漢明距離

simhash是google用來處理海量文本去重的算法。simhash就是將一個文檔，最後轉換成一個64位的字節，然後判斷重複只需要判斷他們的各個字節的距離是不是<n（n爲自定義大小，一般取3~5），就可以判斷兩個文檔是否相似。

simhash算法分爲5個步驟：分詞、hash、加權、合併、降維，具體過程如下所述：

分詞
給定一段語句，進行分詞，得到有效的特徵向量，然後爲每一個特徵向量設置1-5等5個級別的權重（如果是給定一個文本，那麼特徵向量可以是文本中的詞，其權重可以是這個詞出現的次數）。

hash
通過hash函數計算各個特徵向量的hash值，hash值爲二進制數01組成的n-bit簽名。

加權
在hash值的基礎上，給所有特徵向量進行加權，即W = Hash weight，且遇到1則hash值和權值正相乘，遇到0則hash值和權值負相乘。

合併
將上述各個特徵向量的加權結果累加，變成只有一個序列串。

降維
對於n-bit簽名的累加結果，如果大於0則置1，否則置0，從而得到該語句的simhash值，最後我們便可以根據不同語句simhash的海明距離來判斷它們的相似度。

具體的流程圖如下:

找到了一個例子來說明具體的步驟:

首先對文本內容進行分詞，去掉一些停用詞後，將剩餘的詞語hash編碼，然後對應的每個詞進行與權重相乘的方式得到每一個詞的新的hash編碼（權重採用的詞的tf-idf的大小作爲權重），然後進行hash對應位置進行合併，最後對合並後的hash進行降維操作。

得到的每一個文檔的simhash均爲等長的hash編碼，所以可以用漢明距離快速的計算出n值的大小。
例如，兩篇文檔的simhash分別爲:

所以該兩個文本的漢明距離爲3，若n取5，則可以認爲這兩個文本是相似的。

minhash

minhash推薦閱讀博客:
http://www.cnblogs.com/bourne...
文中下面內容將參照該篇博客講解:

問題背景:
給出N個集合，找到相似的集合對，如何實現呢？直觀的方法是比較任意兩個集合。那麼可以十分精確的找到每一對相似的集合，但是時間複雜度是O(n2)。當N比較小時，比如K級，此算法可以在接受的時間範圍內完成，但是如果N變大時，比B級，甚至P級，那麼需要的時間是不能夠被接受的。

上面的算法雖然效率很低，但是結果會很精確，因爲檢查了每一對集合。假如，N個集合中只有少數幾對集合相似，絕大多數集合都不等呢？那麼根據上述算法，絕大多數檢測的結果是兩個結合不相似，可以說這些檢測“浪費了計算時間”。所以，如果能找到一種算法，將大體上相似的集合聚到一起，縮小比對的範圍，這樣只用檢測較少的集合對，就可以找到絕大多數相似的集合對，大幅度減少時間開銷。雖然犧牲了一部分精度，但是如果能夠將時間大幅度減少，這種算法還是可以接受的。接下來的內容講解如何使用Minhash和LSH來實現上述目的，在相似的集合較少的情況下，可以在O(n)時間找到大部分相似的集合對。

minhash降維
原始問題的關鍵在於計算時間太長。所以，如果能夠找到一種很好的方法將原始集合壓縮成更小的集合，而且又不失去相似性，那麼可以縮短計算時間。Minhash可以幫助我們解決這個問題。舉個例子，S1 = {a,d,e}，S2 = {c, e}，設全集U = {a,b,c,d,e}。集合可以如下表示：

表1中，列表示集合，行表示元素，值1表示某個集合具有某個值，0則相反（X，Y，Z的意義後面討論）。Minhash算法大體思路是：採用一種hash函數，將元素的位置均勻打亂，然後將新順序下每個集合第一個元素作爲該集合的特徵值。比如哈希函數h1(i) = (i + 1) % 5，其中i爲行號。作用於集合S1和S2，得到如下結果：

這時，Minhash(S1) = e，Minhash(S2) = e。也就是說用元素e表示S1，用元素e表示集合S2。那麼這樣做是否科學呢？進一步，如果Minhash(S1) 等於Minhash(S2)，那麼S1是否和S2類似呢？

結論：
P(Minhash(S1) = Minhash(S2)) = Jaccard(S1,S2)

在哈希函數h1均勻分佈的情況下，集合S1的Minhash值和集合S2的Minhash值相等的概率等於集合S1與集合S2的Jaccard相似度，下面簡單分析一下這個結論。

S1和S2的每一行元素可以分爲三類：

X類均爲1。比如表2中的第1行，兩個集合都有元素e。
Y類一個爲1，另一個爲0。比如表2中的第2行，表明S1有元素a，而S2沒有。
Z類均爲0。比如表2中的第3行，兩個集合都沒有元素b。

這裏忽略所有Z類的行，因爲此類行對兩個集合是否相似沒有任何貢獻。由於哈希函數將原始行號均勻分佈到新的行號，這樣可以認爲在新的行號排列下，任意一行出現X類的情況的概率爲|X|/(|X|+|Y|)。這裏爲了方便，將任意位置設爲第一個出現X類行的行號。所以P(第一個出現X類) = |X|/(|X|+|Y|) = Jac(S1,S2)。這裏很重要的一點就是要保證哈希函數可以將數值均勻分佈，儘量減少衝撞。

一般而言，會找出一系列的哈希函數，比如h個（h << |U|），爲每一個集合計算h次Minhash值，然後用h個Minhash值組成一個摘要來表示當前集合（注意Minhash的值的位置需要保持一致）。舉個列子，還是基於上面的例子，現在又有一個哈希函數h2(i) = (i -1)% 5。那麼得到如下集合：

所以，現在用摘要表示的原始集合如下：

從表四還可以得到一個結論，令X表示Minhash摘要後的集合對應行相等的次數（比如表4，X=1，因爲哈希函數h1情況下，兩個集合的minhash相等，h2不等）：

X符合次數爲h，概率爲Jac(S1,S2)的二項分佈。那麼期望E(X) = h Jac(S1,S2) = 2 2 / 3 = 1.33。也就是每2個hash計算Minhash摘要，可以期望有1.33元素對應相等。

所以，Minhash在壓縮原始集合的情況下，保證了集合的相似度沒有被破壞。

LSH-局部敏感哈希
現在有了原始集合的摘要，但是還是沒有解決最初的問題，仍然需要遍歷所有的集合對,，才能所有相似的集合對，複雜度仍然是O(n2)。所以，接下來描述解決這個問題的核心思想LSH。其基本思路是將相似的集合聚集到一起，減小查找範圍，避免比較不相似的集合。仍然是從例子開始，現在有5個集合，計算出對應的Minhash摘要，如下：

上面的集合摘要採用了12個不同的hash函數計算出來，然後分成了B = 4個區間。前面已經分析過，任意兩個集合（S1，S2）對應的Minhash值相等的概率r = Jac(S1，S2)。先分析區間1，在這個區間內，P(集合S1等於集合S2) = r3。所以只要S1和S2的Jaccard相似度越高，在區間1內越有可能完成全一致，反過來也一樣。那麼P(集合S1不等於集合S2) = 1 - r3。現在有4個區間，其他區間與第一個相同，所以P(4個區間上，集合S1都不等於集合S2) = (1 – r3)4。P(4個區間上，至少有一個區間，集合S1等於集合S2) = 1 - (1 – r3)4。這裏的概率是一個r的函數，形狀猶如一個S型，如下：

如果令區間個數爲B，每個區間內的行數爲C，那麼上面的公式可以形式的表示爲：

令r = 0.4，C=3，B = 100。上述公式計算的概率爲0.9986585。這表明兩個Jaccard相似度爲0.4的集合在至少一個區間內衝撞的概率達到了99.9%。根據這一事實，我們只需要選取合適的B和C，和一個衝撞率很低的hash函數，就可以將相似的集合至少在一個區間內衝撞，這樣也就達成了本節最開始的目的：將相似的集合放到一起。具體的方法是爲B個區間，準備B個hash表，和區間編號一一對應，然後用hash函數將每個區間的部分集合映射到對應hash表裏。最後遍歷所有的hash表，將衝撞的集合作爲候選對象進行比較，找出相識的集合對。整個過程是採用O(n)的時間複雜度，因爲B和C均是常量。由於聚到一起的集合相比於整體比較少，所以在這小範圍內互相比較的時間開銷也可以計算爲常量，那麼總體的計算時間也是O(n)。

參考資料

http://www.cnblogs.com/bourne...

詳細代碼見github。

文本相似度計算_03

simhash+漢明距離

minhash

參考資料

Kafka存儲機制

HTTP URL 詳解

文本相似度計算_03

文本相似度計算_02

文本相似度計算_01

基於字符串的模糊匹配

simhash+漢明距離計算文本相似度

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結