《實體解析與信息質量》 - 3.1.1 Fellegi-Sunter模型

Fellegi-Sunter模型

從歷史上來看,政府人口普查、福利和稅收統計計劃是第一個解決實體解析問題的組織,他們開始嘗試着彙總和總結大量的居民和企業信息。想要收集關於人口的精確數據,那麼確定兩條在不同的時間或者被不同機構所收集的數據記錄是否爲同一個實體就顯得尤爲的重要。1969年,在加拿大統計局工作的統計學家I.P.fellegi和A.B.Sunter出版了一篇論文,論文名爲記錄鏈接理論,這篇論文描述了實體解析的統計模型,即Fellegi-Sunter模型(FSM),這是第一個試圖以一種嚴格的方式來描述記錄鏈接的模型。

除了它的歷史意義,這篇論文還給ER實踐者提供了有用的指導,包括如何從一個完全確定性的匹配到概率性的匹配來擴展引用鏈接,以及提供了一種方法用於創建一組概率性匹配規則,這些規則不會超過給定的誤報和漏報比率。然而FSM確實也存在着一些侷限性,首先,它只處理直接匹配鏈接的引用,並沒有考慮到任何其他的在第一章討論到的三種鏈接方法。其次,它給在上下文中的兩個引用的列表(文件)找到等價引用限定了框架,假設這兩個列表沒有等價引用,也就是等價引用貫穿於所有的列表,而不是在一個列表中,這種情況下就比較難找到等價引用。

確定性匹配和概率性匹配

確定性匹配是一種ER方法(Herzog, et al., 2007),當且僅當兩個相應的屬性對之間有完全相同的值,這個方法就會實現這兩個引用鏈接。實際上,確定性匹配認爲鏈接的引用其實是相互之間的一個精確副本,至少他們的標識屬性值是相互的一個複製品。這個方法代表了記錄鏈接的最基本的形成方式,也反映了重複記錄這個術語的真實意義。

Fellegi和Sunter意識到了確定性匹配有太多限制,至少是在人口普查工作中,導致了太多的漏報率,也就是實際上應該被鏈接的引用卻沒有被鏈接。由於數據不一致,數據變化和常見的數據錄入錯誤,許多等價引用對在他們的標識屬性對上將不會產生相同的值。FSM提出了一個概念,將確定性匹配擴展爲概率性匹配方法。概率性匹配通過允許一些對應的標識屬性有不同的值來放寬了對確定性匹配的約束。例如,如果有幾個標識屬性對,這些屬性對除了一個之外其他都有相同的值,那麼仍然可能認爲有足夠的證據來決定這兩個引用是等價的。在並不是所有的標識屬性對都有相同值得情況下,決定是否鏈接可能不僅取決於有多少個屬性對匹配還應該考慮是哪些屬性對匹配的。

入學註冊實例

通過一個簡單的例子,我們可能會更好的理解FSM模型。假設公立學校在每個學年的開始,都會爲每個年級需要登記的學生創建了一條記錄。ER的目標是將登記文件中連續的兩個年級在連續兩年內的相同學生鏈接登記記錄。ER鏈接方法是利用學生的姓,名和生日這些身份屬性進行直接匹配。期望的結果是這些文件之間將會有相當大的重疊,因爲大多數的學生都是在同一年登記的,只是升了一個年級。然而,還會出現這樣一些情況,一些新學生正常進入入學第二年,但是另外一些學生在進入第二年之前就離開學校了。

圖3.1顯示了關於學生入學登記例子的一個概率性匹配模式的評估。水平橫軸上的二進制數字是兩個引用之間的身份屬性匹配和不匹配的所有可能的組合的一個編碼。這個編碼中,值1意味着兩個屬性值都是存在的並且這兩個值是相等的,而值0意味着兩個屬性中有一個沒有值或者都沒有值,或者兩個屬性值都存在但是不相等。對於有三個屬性的引用,將會有八(2^3)種可能的組合。當組合中的第一位二進制數字爲1時,意思就是兩條登記記錄中的姓這個屬性的值是相等的,而值0按照前面的規則所示就意味着它們的屬性值不相等或者沒有值。同樣的,第二位代表了名這個屬性對匹配或者不匹配,而第三位代表了生日屬性對的匹配或不匹配。例如,編碼111代表了三個屬性都完全一致,即確定性匹配的情況。

                                      圖3.1 學生記錄的真、假邏輯組合

簡單來說,圖3.1中的編碼只有兩個可能的情況(匹配和不匹配),但是正如先前在論文(Fellegi, Sunter, 1969)中提到的,Fellegi-Sunter模型允許一種更爲複雜的編碼,例如,編碼之間的兩個值是都是不同的或者兩個值中有一個或兩個都沒有值。在一個字符串編碼可能看起來像“BCA”的場景下,“B”表明第一對屬性中其中一個值或兩個值都不存在,”C”表明第二對屬性的值是存在的但是值不相等,“A”表明第三對屬性的值都存在並且相等。如果考慮匹配值的性質,如名字的匹配爲兩個常見的名字或者兩個名字都有一個特殊的值如“JOHN”,編碼還可能變得更加複雜。

圖3.1中,縱軸代表的概率範圍爲0~1,在此標準上,每個二進制編碼被劃分爲兩個垂直的豎線,第一條豎線滿足的模式是一對引用指向同一個學生的概率(等價引用)。第二條豎線滿足的模式是一對引用不是指向同一個的學生的概率。綜上所述,這兩個措施表明不管是使用一個積極的還是消極的鏈接,使用模式都是有效的。考慮這兩個概率是很重要的,因爲第一章中ER的基本定律要求兩個引用鏈接,並且只能引用相同的實體。還要注意的是,由於模式是互斥的,而且所有的模式都應包含在內,所以每組概率相加的和必須爲1。

這兩種概率和指標的精度相關,而且可以用來評估信息檢索(IR)過程的有效性,如數據查詢。考慮到所有可能在第一和第二年登記學生記錄的集合,第一種概率(比例)代表能夠找到相同學生(等價對)的屬性對模式的概率,也就是,這種模式有能力找到等價記錄。第二種概率代表非等價對滿足的模式的概率,也就是,這種模式有能力通過鏈接來嚴格區分非等價對。ER經常會去權衡這兩種約束關係。在匹配模式,或其他ER方法中,找到很多等價屬性對是一件好事,只要沒有太多的誤報率。另一方面來說,太保守的只使用高精度的規則可能會導致一些等價對未被發現或未被鏈接,從而引起更高的誤報率。FSM作爲一種設計概率性匹配方案的指導模型,它不會超過每種錯誤類型所給定的閥值。在接下來的討論中,最大可允許的false positive鏈接錯誤比率定義爲μ,最大可允許的false negative鏈接錯誤最大可接受的比率定義爲λ。

 μ和λ的背後理論優化依賴於爲每個模式的概率做系統檢測,如圖3.1所示的。例如,考慮確定性模式111,即所有的屬性對都相同的模式。等價記錄滿足這種模式的概率低於50%。這意味着如果決定只基於這種模式進行鏈接,只有不到一半的等價記錄(true positives)得到鏈接,這使得剩下的等價記錄都被標記爲false negative錯誤。這個概率並不高的原因是假設這個例子中許多記錄的生日屬性都缺失值。因此至少一個記錄對中有一個沒生日這個值,所以許多同一個學生的記錄對將不會被這種模式所找到。即使是同一個學生的三個身份屬性值都被登記在了兩條記錄中,仍然可能出現三個屬性對不完全匹配的概率。這種不匹配可以由多種原因引起,如數據錄入錯誤,第一年登記時用了暱稱而下一年卻沒有用,甚至可能出現學生更改名字的情況。從另一個角度來說,不同學生的兩條登記記錄的三個屬性對都匹配的概率是相當小的,但並不等於概率爲零。當然在一所比較大的學校裏,這種情況是可能發生的,兩個不同學生可能有着相同的生日,並且都用了比較普遍的名字。所以,在這個例子中,決定是否鏈接取決於大多數需求匹配模式(111)將如何爲一些false positive錯誤作出貢獻。

另一個例子是010模式,這種模式表明學生的姓氏是匹配的,但是名和生日不匹配。從鏈接的登記記錄中可能會找到符合這種模式的一些等價對,譬如,一條記錄有着與另一條記錄相同的姓,名字卻用的是暱稱,另一條記錄沒有登記生日值。但是,即使在010模式下決定鏈接,能夠找到一些等價對,而如果不同學生恰巧有着相同的姓,在這種情況下通過鏈接非等價對去創建false positives的風險是很高的。因此決定不去鏈接而使用該010模式是一個比較好的選擇。

模式權重和鏈接規則

如果每個模式的概率如圖3.1所示是已知的,那麼基於概率匹配的最佳鏈接規則就能被定義出來。模式的概率可以通過測試樣本對,利用已知的人口特徵,或使用先前工作中建的值被評估出來。一旦這些概率確定了,每種模式被分配的權重取決於第一種概率到第二種概率的比率。權重比是一種結合兩個概率值爲一個單獨數字的方法。有最高權重比的模式將最有可能決定鏈接,因爲它們找到等價記錄(分子)的概率最大,而創建false positive鏈接(分母)的可能性最小。相反的,低權重比的模式最好決定不去鏈接,它們可能會創建許多true negatives,而很少創建false negatives。這些比率可以在一個非常大到非常小的值的範圍內,模式的權重可以定義爲一個比率的對數。


計算完圖3.1中所示模式概率的權重比率,結果按值降序排序如下:

       

圖3.2和圖3.1有着相同模式和概率,不同的是圖上的模式根據上面的權重比率順序做了從一個最高值到最低值的重新排序。

圖3.2  按照權重排序的學生登記匹配模式

一個Fellegi-Sunter鏈接規則取決於如何選擇Tμ和Tλ,這兩個值定義範圍如下:


接下來每個引用對是否決定鏈接取決於模式的權重,按如下規則所示:


按如上規則所示,滿足圖3.2中最左邊一個模式的引用對(權重大於Tμ)總是能夠鏈接(positive link),滿足最右邊模式的引用對(權重小於Tλ)都不能鏈接(positivenonlink)。該規則也允許模式自動決定能還是不能做匹配。權重值在Tμ~Tλ區間之間的引用對必須手動進行檢查並得到可能正確的解決方案。圖3.3說明了Tμ和Tλ是如何來限制從左至右累加的誤報(false positive)錯誤和從右至左累加的漏報(false negative)錯誤的。

圖3.3 通過規則分類的有序模式

上圖中標記的原因是Tμ值的選擇限制了做出正確鏈接決定的誤報(falsepositive)錯誤率(μ),Tλ的選擇限制了做出正確不鏈接決定的漏報(falsenegative)錯誤率(λ)。該規則的誤報率(false positive rate)可以通過將滿足權重大於Tμ的模式的誤報率簡單相加計算出來,而漏報率(falsenegative rate)可以通過通過將滿足權重小於Tλ的模式的正確率(true positiverate)簡單相加計算出來。因此,如果選擇Tμ那麼累加的誤報率就小於μ,如果選擇Tλ那麼累加的漏報率就小於λ。這樣的話鏈接規則就是最優的,因爲它最大化了真正應該鏈接和不應鏈接的數量而沒有超過給定的誤差水平,同時還最小化了要求檢查的鏈接數量,Fellegi和Sunter稱之爲記錄鏈接的基本定律Fellegi, Sunter, 1969)。

自最初的出版以來,許多作者已經開始著作和出版關於改善FSM的論文。在美國統計局最著名的William Winkler曾經出版過expectation-maximization方法(Winkler, 1988)的應用程序,這個方法是用來調整缺乏條件獨立性的屬性(Winkler, 1989a),並實現了權重計算的自動化(Winkler, 1989b)。

權重比率計算

Herzog, Schuren, and Winkler (2007)給出了一個極好的關於FSM模型的闡述,包括了從對個人身份屬性一致或不一致的概率估計中所計算出來的模式權重的方法。然而,這種技術的使用時基於假設該屬性是條件獨立的,也就是,一個身份屬性的值一致或不一致的概率並不會影響到另外一個身份屬性的一致或不一致。假設給出的屬性都是條件獨立的,那麼模式權重計算方法爲:

n = 屬性的個數

mi = 與屬性i一致的等價記錄的概率

ui = 與屬性i一致的非等價記錄的概率


使用該計算公式,每種模式權重的計算結果可以通過將與個人屬性相關的比率相加計算出來。以學生入學登記記錄爲例,模式爲101,那麼,可以通過下面的公式計算出權重結果:


屬性值比較

圖3.1所示的學生記錄例子中,模式011表明屬性名字的值不一致,而屬性姓氏和生日的值都一致。但是,正如前面提到的,一個簡單的二進制編碼並沒有指定這種不一致的本質。還可能是其中一個或兩個姓氏的值都丟失了,更可能是它們只是因爲擁有不同的值。然而,當兩個值都存在的情況,可以有一定程度的差異。

考慮到接下來的三對名字的值可能會造成一定的不一致:(JAMES, DALE), (JAMES, JMAES), 和 (JAMES,JIM).第一對(JAMES, DALE)似乎證實了一個正確的不鏈接的決定,因爲這兩個名字似乎完全都不相關。從另一方面來說,另外兩對(JAMES, JMAES), 和 (JAMES, JIM)從兩個原因說明了屬性的值不同仍然可能被認爲是證實了一個正確的鏈接。在(JAMES, JMAES)這個例子中,這兩個字符串是由相同的字母組成的,只是字母出現的順序不一樣,所以它們被認爲是相似的。字符串“JMAES”並不認爲是個有效的名字,但是它只需更換第二和第三個字母就可以被轉換成一個有效的名字“JAMES”,這是一個常見的鍵盤錄入錯誤。根據字符串組成和順序來計算它們的差異性的算法被稱爲近似字符串匹配算法(ASM).如第一章中所討論的,有許多不同的ASM算法,每一種算法在給出的ER應用中都有自己的優勢和劣勢(Navarro,2001)。

ASM和對身份屬性的語義匹配都可以通過允許簡單二進制協議/分歧模式提煉成一個廣泛通用的模式來提高概率性匹配的性能。例如,前面例子中所討論的入學率的另一種編碼協議模式可以使用編碼“E”來表示精確匹配,“A”表示模糊匹配,“S”表示語義匹配,“M”表示如果有一個或兩個值是丟失的,“X”表示前面所有的條件都不滿足。這種編碼形式表示,引用鏈接滿足概率模式“SEE”匹配的誤報率很可能低於模式“XEE”。這種編碼的額外的好處是允許我們更爲清晰的表述某些情況,而且它同時又顯著的增加了可以考慮的模式的數量。三個屬性都有五種可能的編碼,那麼模式的數量將會從8增加到125。

術語“模糊匹配”有時也被用來描述概率性匹配。然而,這個術語的使用可能會引起歧義。在某些情況下,模糊匹配指的在屬性層次上使用ASM算法或語義匹配算法。在另外一些情況下,它的使用和概率性匹配是一樣的,如一些屬性是允許近似字符串或語義匹配的情況下。總之,當使用ASM或語義匹配技術時,模糊這個詞在某些意義上是存在一定的誤導的,所以應該建立一個固定差異的限制。任何實現都必須簡化爲一個離散的編碼規則的實現,這個規則明確的定義了什麼是相似,例如,兩個字符串之間的最短可允許的編輯距離。建立這些相似性閥值並沒有一個指導方針,比較合理的建立方法是根據經驗通過對目標人羣的引用所提取的實驗樣本中建立出來,但是經常它們只是簡單的通過直覺建立出來。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章