讀書筆記 -- 002_數據預處理_數據集成

概述
數據挖掘經常需要數據集成 – 合併來自多個數據源的數據。小心集成有助於減少結果數據集的冗餘和不一致。這有助於提高其後數據挖掘的準確性和速度。

1、實體識別問題

數據分析多半涉及數據集成。數據集成將多個數據源中的數據合併，存放那個在一個一致的數據存儲中，如存放在數據倉庫中。這些數據源可能包括多個數據庫、數據立方體或一般文件。

自數據集成時，有許多問題需要考慮。模式集成和對象匹配可能需要技巧。來自多個信息源的現實世界的等價實體如何才能“匹配”？這涉及實體識別問題。例如，數據分析者或者計算機如何才能確定一個數據庫的customer_id與另一個數據庫中的cust_number指的是相同的屬性呢？每個屬性的元數據包括名字、含義、數據類型和屬性的允許取值範圍，以及處理空白、零或NULL值得空值規則。這樣的元數據可以用來幫助避免模式集成的錯誤。元數據還可以用於變換數據(例如，pay_type的數據編碼在一個數據庫中可以是“H”和“S”，而在另一個數據庫中是1和2)。因此，這一步也與前面介紹的數據清理有關。

在集成期間，當一個數據庫的屬性和另一個數據庫的屬性匹配時，必須特別注意數據的結構。這旨在確保源系統中的函數和參考約束與目標系統中的匹配。例如，在一個系統中，discount可以用於訂單，而在另外一個系統中，它被用於訂單內的商品。如果在集成之前未發現，則目標系統中的商品可能被不正確地打折。

2、冗餘和相關分析

冗餘是數據集成的另一個重要問題。一個屬性(例如，年收入)如果能由另一個或另一組屬性”導出”，則這個屬性可能是冗餘的。屬性或維命名的不一致可能導致結果數據集中的冗餘。

有些冗餘可以被相關分析檢測到。給定兩個屬性，這種分析可以根據可用的數據，度量一個屬性能在多大程度上蘊涵另一個。對於標稱數據，我們使用x^2（卡方）檢測。對於數值屬性，我們使用相關係數(correlation coefficient)和協方差(covariance)，他們都評估一個屬性的值如何隨另一個變化。

2.1、標稱數據的x^2相關檢驗

對於標稱屬性，兩個屬性A和B之間的相關性可以用卡方檢驗發現。假設A有c個不同的值a1,a2,a3 … ac，B有r個不同的值b1,b2,b3 … br。用A和B描述的數據元組可以用相依表顯示，其中A的c個值構成列，B的r個值構成行。令(Ai, Bj)表示屬性A取取值ai、屬性B取值bj的聯合事件，即(A = ai，B = bj)。每個可能的(Ai，Bj)聯合事件都在表中都有自己的單元。x^2值(又稱Pearson X^2統計量)可以用下式計算：

其中，0ij是聯合事件(Ai， Bj)的觀測頻度(即實際計數)，而eij是(Ai，Bj)的期望頻度，可以用下式來計算：

其中，n是數據元組的個數，count(A = ai)是A上具有值ai的元組個數，而count(B = bj)是B上具有值bj的元組個數。1式中的和在所有r x c 個單元上計算。注意 x^2值貢獻最大的單元是其實際計數與期望計數很不相同的單元。

x^2統計檢驗假設A和B是獨立的。檢驗基於顯著水平，具有自由度(r - 1) * (c - 1)。

例： 使用x^2的標稱屬性的相關分析。將設調查了1500名學生，記錄了每名學生的性別。每個人對他們喜愛的閱讀材料類型是否是小說進行投票。調查結果如下表，其中括號中的數是期望頻率。

使用第二個式子，我們可以驗證每個單元的期望頻率。例如，單元(男，小說）的期望頻率是：

注意，再任意行和列，期望頻率的和必須等於改行和列的總觀測頻率。
我們得到：

對於這個2 x 2的表，其自由度爲(2 - 1) x (2 - 1) = 1。對於自由度1，在0.001的置信水平下，拒絕假設的值時10.828。由於我們計算的值大於該值，因此我們拒絕gender和preferred_reading獨立的假設，並斷言對於給定的人羣，這兩個屬性是（強）相關的。

2.2、數值數據的相關係數

對於數值數據，我們可以通過計算屬性A和B的相關係數(又稱Pearson積距係數)，估計兩個屬性的相關度：

其中，n是元組的個數，ai和bi分別是元組i在A和B上的值，分母是n與A和B的標準差的乘積。注意，相關係數的取值區間是[-1， 1]。如果相關係數大於0，那麼A和B正相關，這意味着A值隨B值的增加而增加。該值越大，相關性越強(即每個屬性蘊涵另一個的可能性越大)。因此，因此，一個較高的相關性值表明A(或B)可以作爲冗餘而被刪除。

如果相關性值等於0，則A和B是獨立的，並且他們之間不存在相關性。如果相關性值小於0，則A和B是負相關，一個值隨另一個值得減少而增加。這意味着每一個屬性都阻止另一個的出現。

注意，相關性並不蘊涵因果關係。也就是說，如果A和B是相關的，這並不意味着A導致B或者B導致A。例如，在分析人口統計數據庫時，我們可能發現一個地區的醫院數量與汽車盜竊數十相關的。這並不意味着一個導致另外一個。實際上，二者必然地關聯到第三個屬性—人口。

2.2、數值數據的協方差
在概率論與統計學中，協方差和方差是兩個類似的度量，評估兩個屬性如何一起變化。考慮兩個數值屬性A、B和n次觀測的集合{（a1,b1）,(a2,b2),…,(an,bn)}。A和B的均值又分別稱之爲A和B的期望，即

A和B的協方差定義爲：

我們把相關係數和協方差的表達式相比較，則可以看出：

還可以證明：