字符串相似度比較算法:Jaro–Winkler similarity的原理及實現

前言

在前面的文章中,筆者有對編輯距離以及Levenshtein距離進行詳細的說明,其實levenshtein距離是編輯距離的其中一種定義,本文所說的Jaro距離是編輯距離的另外一種定義,它也是對兩個字符串的相似度進行衡量,以得出兩字符串的相似程度。下面我們一起來學習這個算法的原理以及實現吧。

標題算法定義

下面先說說Jaro distance(又稱Jaro similarity),這是由Matthew A. Jaro在1989年提出的算法,而Jaro-Winkler distance是由William E. Winkler在Jaro distance的基礎上進一步改進的算法。

1、Jaro distance/similarity
對於兩個字符串s1和s2,它們的Jaro 相似度由下面公式給出:
Jaro similarity公式(圖片來自Wiki百科)
其中:
①|s1|和|s2|表示字符串s1和s2的長度。
②m表示兩字符串的匹配字符數。
③t表示換位數目transpositions的一半。

這裏的m和t是滿足一定條件下得出來的,在理解m和t的含義之前,我們先來認識匹配窗口(記爲matching window,mw)的概念。Jaro算法的字符之間的比較是限定在一個範圍內的,如果在這個範圍內兩個字符相等,那麼表示匹配成功,如果超出了這個範圍,表示匹配失敗。而這個範圍就是匹配窗口,在Jaro算法中,它被定義爲不超過下面表達式的值:
匹配窗口公式(圖片來自Wiki百科)
比如說字符串A(“bacde”)和B(“abed”),它的匹配窗口大小爲1,在匹配的過程中,字符’a’、‘b’、‘d’都是匹配的,indexInA(‘d’) = 3,indexInB(‘d’) = 3,二者的距離是0,小於匹配窗口大小。但對於’e’,雖然兩字符串都有’e’這個字符,但它們卻是不匹配的,因爲’e’的下標分別爲4和2,距離爲2 > mw,所以’e’是不匹配的。在這個例子中,由於有3個字符匹配,因此m = 3。換位數目表示不同順序的匹配字符的個數。同樣看這個例子,'a’和’b’都是匹配的,但’a’和’b’在兩個字符串的表示爲"ba…“和"ab…”,它們的順序不同,因此這裏換位數目transpositions = 2,而t = transpositions / 2 = 1。

對於匹配窗口的含義,筆者的理解是:匹配窗口是一個閾值,在這個閾值之內兩個字符相等,可以認爲是匹配的;超過了這個閾值,即使存在另一個字符與該字符相等,但由於它們的距離太遠了,二者的相關性太低了,不能認爲它們是匹配的。從上面的公式可以看出,該算法強調的是局部相似度

對於任意字符串A和B,能求出它們的length、m和t,這樣便能代入公式求得二者的相似度(Jaro similarity)。從剛纔的例子得到,|s1|=5,|s2|=4,m=3,t=1,代入公式可得:simj = (3/5 + 3/4 + (3-1)/3)/3 = 0.672

2、Jaro-Winkler distance/similarity
Jaro-Winkler similarity是在Jaro similarity的基礎上,做的進一步修改,在該算法中,更加突出了前綴相同的重要性,即如果兩個字符串在前幾個字符都相同的情況下,它們會獲得更高的相似性。該算法的公式如下:
Jaro-Winkler similarity公式(圖片來自Wiki百科)
其中:
①simj 就是剛纔求得的Jaro similarity。
②l表示兩個字符串的共同前綴字符的個數,最大不超過4個。
③p是縮放因子常量,它描述的是共同前綴對於相似度的貢獻,p越大,表示共同前綴權重越大,最大不超過0.25。p默認取值是0.1。

圖解Jaro-Winkler similarity求解過程

下面以字符串A(“abcdefgh”)和字符串B(“abehc”)爲例來介紹整個算法的流程。這裏以短字符串爲行元素,長字符串爲列元素,建立(|s1|+1)×(|s2|+1)的矩陣,這裏匹配窗口的大小爲3(注意包括距離爲0的匹配),然後根據公式不斷運算:
圖解過程
從上面的圖以及公式,我們可以總結出求解的過程:字符串s1作爲行元素,字符串s2作爲列元素,窗口大小爲mw,同時建立兩個布爾型數組,大小分別爲s1和s2的長度,布爾型數組對應下標的值True表示已匹配,false表示不匹配。
對於行元素的每一個字符c1,根據c1在該字符串s1中的下標k,定位到s2的k位置,然後在該位置往前遍歷mw個單位,往後遍歷mw個單位,如果尋找到相等的字符,記在s2中的下標爲p。經過這樣的一次遍歷,找到了k和p,我們分別標記布爾型數組s1的k和布爾型數組s2的p爲已匹配(true),下次遍歷時就跳過該已匹配的字符。當對s1的所有元素都遍歷完畢時,就找到了所有已匹配的字符,我們統計已匹配的字符便能得到m,然後對兩個布爾型數組同時按照順序比較,如果出現了true,但二者對應字符串相應位置的字符不相等,表示這是非順序的匹配,這樣就可以得到t。這樣就能根據m和t求出Jaro similarity了。至於Jaro-Winkler similarity,需要p參數,也不難,求出倆字符串最大共同前綴的大小即可。
如果讀者對上面的過程還有疑問,筆者再提一點,關鍵就在於判斷來自倆字符串的相等字符的距離是不是超過了閾值(即匹配窗口長度)。這裏的判斷方法是在某個位置進行前後的搜索,包括當前位置。

代碼實現

根據上面的實現思路以及圖解過程,我們能很容易寫出下面的代碼:

public class JaroWinklerDistance {

    private float p = 0.1f;
    private final float MAX_P = 0.25f;
    private final int MAX_L = 4;

    /**
     * 用戶可以修改p參數,以提高共同前綴的權重
     * @param p
     */
    private void setP(float p){
        this.p = p;
    }

    public float getJaroDistance(CharSequence s1,CharSequence s2){
        if (s1 == null || s2 == null) return 0f;
        int result[] = matches(s1,s2);
        float m = result[0];
        if (m == 0f)
            return 0f;

        float j = ((m / s1.length() + m / s2.length() + (m - result[1]) / m)) / 3;
        return j;
    }

    public float getJaroWinklerDistance(CharSequence s1,CharSequence s2){
        if (s1 == null || s2 == null) return 0f;
        int result[] = matches(s1,s2);

        float m = result[0];
        if (m == 0f)
            return 0f;

        float j = ((m / s1.length() + m / s2.length() + (m - result[1]) / m)) / 3;
        float jw = j + Math.min(p,MAX_P) * result[2] * (1 - j);
        return jw;


    }

    private int[] matches(CharSequence s1,CharSequence s2){
        //用max來保存較長的字符串,min保存較短的字符串
        //這是爲了以短字符串爲行元素遍歷,長字符串爲列元素遍歷。
        CharSequence max,min;
        if (s1.length() > s2.length()){
            max = s1;
            min = s2;
        }else{
            max = s2;
            min = s1;
        }

        //匹配窗口的大小,對於每一行i,列j只在(i-matchedwindow,i+matchedwindow)內移動,
        //在該範圍內遇到相等的字符,表示匹配成功
        int matchedWindow = Math.max(max.length() / 2 - 1,0);
        //記錄字符串的匹配狀態,true表示已經匹配成功
        boolean[] minMatchFlag = new boolean[min.length()];
        boolean[] maxMatchFlag = new boolean[max.length()];
        int matches = 0;

        for (int i = 0;i < min.length();i++){
            char minChar = min.charAt(i);
            //列元素的搜索:j的變化包括i往前搜索窗口長度和i往後搜索窗口長度。
            for (int j = Math.max(i - matchedWindow,0);
                 j < Math.min(i + matchedWindow + 1,max.length());j++){
                if (!maxMatchFlag[j] && minChar == max.charAt(j)){
                    maxMatchFlag[j] = true;
                    minMatchFlag[i] = true;
                    matches++;
                    break;
                }
            }
        }
        //求轉換次數和相同前綴長度
        int transpositions = 0;
        int prefix = 0;

        int j = 0;
        for (int i = 0;i < min.length();i++){
            if (minMatchFlag[i]){
                while (!maxMatchFlag[j]) j++;

                if (min.charAt(i) != max.charAt(j)){
                    transpositions++;
                }
                j++;
            }
        }

        for(int i = 0;i < min.length();i++){
            if (s1.charAt(i) == s2.charAt(i)){
                prefix++;
            }else {
                break;
            }
        }

        return new int[]{matches,transpositions / 2,prefix > MAX_L ? MAX_L : prefix};
    }

    public static void main(String args[]){
        String s1 = "abcdefgh";
        String s2 = "abehc";

        JaroWinklerDistance distance = new JaroWinklerDistance();
        System.out.println("字符串A(\"" + s1 +"\")"+"和字符串B(\"" + s2 + "\"):");
        System.out.println("Jaro similarity:" + distance.getJaroDistance(s1,s2));
        System.out.println("Jaro-Winkler similarity:" + distance.getJaroWinklerDistance(s1,s2));
    }
}

我們運行上面的代碼,可以得到下面的輸出:
運行結果
這與我們圖解過程得到的結果手工計算出來的是一致的。

進一步探究

經過上面的學習,我們已經掌握了這個算法的原理以及實現方法,下面我們接着來探究它的特性以及適用場景。
我們來看下面的一組實驗結果:
探究結果1
關鍵字是fox,另外的字符串是包含有fox幾個字符的字符串,可以看出最高相似度的是"fox"在開始幾位的情況下,而"afoxbcd"反而比"foaxbcd"更低,雖然前者含有完整的"fox"而後者是分開的。同時"abcdfox"的相似度爲0,即使它末尾含有"fox"。上面這幾個例子說明了jaro-winkler相似度對於前綴匹配更友好,並且越往前面匹配成功帶來的權重更大。由此可以看出,該算法可以用在單詞的匹配上,比如對於一個單詞"appropriate",找出數據庫中與它最匹配的一個詞語,可以是"appropriation",也可以是"appropriately"等。但是,該算法不適用在句子匹配上,因爲如果關鍵字在句子的後面部分,相似度會急劇下降,甚至爲0。

好了,這篇文章到這裏就結束了~喜歡的不要忘記點個贊喲,謝謝閱讀!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章