讀書筆記 -- 002_數據預處理_數據集成

概述
數據挖掘經常需要數據集成 – 合併來自多個數據源的數據。小心集成有助於減少結果數據集的冗餘和不一致。這有助於提高其後數據挖掘的準確性和速度。

1、實體識別問題

數據分析多半涉及數據集成。數據集成將多個數據源中的數據合併,存放那個在一個一致的數據存儲中,如存放在數據倉庫中。這些數據源可能包括多個數據庫、數據立方體或一般文件。

自數據集成時,有許多問題需要考慮。模式集成對象匹配可能需要技巧。來自多個信息源的現實世界的等價實體如何才能“匹配”?這涉及實體識別問題。例如,數據分析者或者計算機如何才能確定一個數據庫的customer_id與另一個數據庫中的cust_number指的是相同的屬性呢 ?每個屬性的元數據包括名字、含義、數據類型和屬性的允許取值範圍,以及處理空白、零或NULL值得空值規則。這樣的元數據可以用來幫助避免模式集成的錯誤。元數據還可以用於變換數據(例如,pay_type的數據編碼在一個數據庫中可以是“H”和“S”,而在另一個數據庫中是1和2)。因此,這一步也與前面介紹的數據清理有關。

在集成期間,當一個數據庫的屬性和另一個數據庫的屬性匹配時,必須特別注意數據的結構。這旨在確保源系統中的函數和參考約束與目標系統中的匹配。例如,在一個系統中,discount可以用於訂單,而在另外一個系統中,它被用於訂單內的商品。如果在集成之前未發現,則目標系統中的商品可能被不正確地打折。

2、冗餘和相關分析

冗餘是數據集成的另一個重要問題。一個屬性(例如,年收入)如果能由另一個或另一組屬性”導出”,則這個屬性可能是冗餘的。屬性或維命名的不一致可能導致結果數據集中的冗餘。

有些冗餘可以被相關分析檢測到。給定兩個屬性,這種分析可以根據可用的數據,度量一個屬性能在多大程度上蘊涵另一個。對於標稱數據,我們使用x^2(卡方)檢測。對於數值屬性,我們使用相關係數(correlation coefficient)和協方差(covariance),他們都評估一個屬性的值如何隨另一個變化。

2.1、標稱數據的x^2相關檢驗

對於標稱屬性,兩個屬性A和B之間的相關性可以用卡方檢驗發現。假設A有c個不同的值a1,a2,a3 … ac,B有r個不同的值b1,b2,b3 … br。用A和B描述的數據元組可以用相依表顯示,其中A的c個值構成列,B的r個值構成行。令(Ai, Bj)表示屬性A取取值ai、屬性B取值bj的聯合事件,即(A = ai,B = bj)。每個可能的(Ai,Bj)聯合事件都在表中都有自己的單元。x^2值(又稱Pearson X^2統計量)可以用下式計算:
這裏寫圖片描述
其中,0ij是聯合事件(Ai, Bj)的觀測頻度(即實際計數),而eij是(Ai,Bj)的期望頻度,可以用下式來計算:
這裏寫圖片描述
其中,n是數據元組的個數,count(A = ai)是A上具有值ai的元組個數,而count(B = bj)是B上具有值bj的元組個數。1式中的和在所有r x c 個單元上計算。注意 x^2值貢獻最大的單元是其實際計數與期望計數很不相同的單元。

x^2統計檢驗假設A和B是獨立的。檢驗基於顯著水平,具有自由度(r - 1) * (c - 1)。

例: 使用x^2的標稱屬性的相關分析。將設調查了1500名學生,記錄了每名學生的性別。每個人對他們喜愛的閱讀材料類型是否是小說進行投票。調查結果如下表,其中括號中的數是期望頻率。
這裏寫圖片描述
使用第二個式子,我們可以驗證每個單元的期望頻率。例如,單元(男,小說)的期望頻率是:
這裏寫圖片描述
注意,再任意行和列,期望頻率的和必須等於改行和列的總觀測頻率。
我們得到:
這裏寫圖片描述
對於這個2 x 2的表,其自由度爲(2 - 1) x (2 - 1) = 1。對於自由度1,在0.001的置信水平下,拒絕假設的值時10.828。由於我們計算的值大於該值,因此我們拒絕gender和preferred_reading獨立的假設,並斷言對於給定的人羣,這兩個屬性是(強)相關的。

2.2、數值數據的相關係數

對於數值數據,我們可以通過計算屬性A和B的相關係數(又稱Pearson積距係數),估計兩個屬性的相關度:
這裏寫圖片描述
其中,n是元組的個數,ai和bi分別是元組i在A和B上的值,分母是n與A和B的標準差的乘積。注意,相關係數的取值區間是[-1, 1]。如果相關係數大於0,那麼A和B正相關,這意味着A值隨B值的增加而增加。該值越大,相關性越強(即每個屬性蘊涵另一個的可能性越大)。因此,因此,一個較高的相關性值表明A(或B)可以作爲冗餘而被刪除。

如果相關性值等於0,則A和B是獨立的,並且他們之間不存在相關性。如果相關性值小於0,則A和B是負相關,一個值隨另一個值得減少而增加。這意味着每一個屬性都阻止另一個的出現。

注意,相關性並不蘊涵因果關係。也就是說,如果A和B是相關的,這並不意味着A導致B或者B導致A。例如,在分析人口統計數據庫時,我們可能發現一個地區的醫院數量與汽車盜竊數十相關的。這並不意味着一個導致另外一個。實際上,二者必然地關聯到第三個屬性—人口。

2.2、數值數據的協方差
在概率論與統計學中,協方差和方差是兩個類似的度量,評估兩個屬性如何一起變化。考慮兩個數值屬性A、B和n次觀測的集合{(a1,b1),(a2,b2),…,(an,bn)}。A和B的均值又分別稱之爲A和B的期望,即
這裏寫圖片描述
A和B的協方差定義爲:
這裏寫圖片描述
我們把相關係數和協方差的表達式相比較,則可以看出:
這裏寫圖片描述
還可以證明:
這裏寫圖片描述

對於兩個趨向於一起改變的屬性A和B,如果A大於A的期望,則B很可能大於B的期望。因此A和B的協方差爲正。反之,則爲負。

如果A和B是獨立的(即他們不具有關聯性),則E(AB) = E(A)E(B)。因此,協方差這裏寫圖片描述。然而,其逆不成立。某些隨機變量(屬性)對可能具有協方差爲0,但是不是獨立的。僅在某種附加的假設下(如數據遵守多元正態分佈),協方差0蘊涵獨立性。

3、元組重複

除了檢測屬性間的冗餘外,還應當在元組級檢測重複。去規範表是數據冗餘的另一個來源。不一致通常出現在各種不同的副本之間,由於不正確的數據輸入,或者由於更新了數據庫的某些地方,但未更新所有的。

發佈了30 篇原創文章 · 獲贊 3 · 訪問量 7萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章