數據分析方法 1.缺失值填充
缺失值:缺失值是指粗糙數據中由於缺少信息而造成的數據的聚類、分組、刪失或截斷。它指的是現有數據集中某個或某些屬性的值是不完全的。(百度詞條)
1.1 缺失的類型
1.1.1完全隨機缺失(missing completely at random,MCAR):數據缺失是完全隨機的,不依賴於任何不完全變量或完全變量。不影響樣本的無偏性。如:家庭地址缺失。
1.1.2隨機缺失(missing at random,MAR):數據的缺失不是完全隨機的,該數據的缺失依賴於其它完全變量。如:財務數據缺失情況與企業大小有關。
1.1.3非隨機缺失(missing not at random,MNAR):指的是數據的缺失與不完全變量自身有關。如:收入高人羣不願提供家庭收入。
對於隨機缺失和非隨機缺失,刪除記錄是不適合的,隨機缺失可以通過已知變量對缺失值進行估計;而非隨機缺失還沒有很好的解決辦法。
無偏性:由於未知參數的估計量是一個隨機變量,對於不同的樣本它有不同的估計量.這些估計量對於參數的真實取值,一般都會有偏差,要求不出現偏差幾乎是不可能的。但是,總希望在多次試驗中所得到的估計量的平均值與參數的真實值相吻合。(百度詞條)
1.2 缺失值的處理
缺失值的處理主要分爲三大類:刪除元組、數據補齊、不處理。
1.2.1刪除元組
將存在缺失信息屬性的對象刪除,從而得到一個完整的信息表。
優點:操作簡單。
作用:在對象有多個屬性缺失值,被刪除的含缺失值的對象與初始數據集的數據量相比非常小的情況下,特別有效,類標號缺失時常用方法。
缺點:侷限性很大。它以減少歷史數據來換取信息的完備,會丟棄大量隱藏在這些對象中的信息。在初始數據集包含的對象很少的情況下,刪除少量對象足以嚴重影響信息的客觀性和正確性。
1.2.2數據補齊
此類通常基於統計學原理,根據初始數據集中其餘對象取值的分佈情況來對一個缺失值進行填充。常用方法如下:
一、人工填寫(Filling Manually)
方法:顧名思義通過人工填寫的方法來完善數據對象。
該類方法的填充效果最好。但是在數據量過大時,工作量大、可行性低。
二、特殊值填充(Treating Missing Attribute values as Special values)
方法:將缺失值作爲一種特殊屬性值來處理,它不同於任何的屬性值。比如:Unknown等。
該類方法可能造成嚴重的數據偏離,一般不推薦使用。
三、平均值填充(Mean/Mode Completer)
方法:對於初始數據集中待處理數據爲數值屬性時,缺失值用平均值處理;待處理數據爲非數值屬性時,缺失值用衆數處理。
該類方法通過最大概率可能的取值來補充缺失值,通過現存數據來推測缺失值。
四、熱卡填充/就近補齊(Hot deck Imputation)
方法:在完整的數據集中找到一個與含有缺失值對象最相似的對象,然後使用相應數值進行填充。
該方法概念上較爲簡單,利用了數據間的關係來進行空值估計。但是這個方法的缺點在於難以定義相似,主觀因素較多。
五、K最近距離鄰法(K-means Clustering)
方法:根據歐式距離或相關分析來確定距離具有缺失數據樣本最近的K個樣本,將這K個值加權來估計該樣本的缺失數據。
該類算法精度高,對異常數據不敏感,無數據輸入假定。但是空間複雜度高,使用數值型或者標稱型(目標變量只在有限集合中取值)數值。
六、使用所有可能的值填充(Assigning All Possbile value of the Attribute)
方法:遍歷所有可能值。
該類方法能得到較好的補齊好過,但是計算代價過高。
七、迴歸(Regression)
方法:基於完整的數據集,建立迴歸方程。對於包含空值的對象,將已知屬性值代入方程來估計未知屬性值,以此估計值進行天成。
該類方法在變量非線性相關時,會產生有偏差的估計。
八、期望值最大化(Expectation Maximization,EM)
(待補充)
1.3 不處理
無論如何處理缺失值,都是主觀的存在。不一定完全符合客觀事實。對缺失值不正確的處理,通常會使數據產生新噪音,使最後數據挖掘的結果產生偏差。因此,我們可以保持初始數據集不變前提下進行處理。
不處理缺失值,直接將包含控制的對象進行數據挖掘的方法包括:貝葉斯神經網絡和人工神經網絡等。
1.3.1 貝葉斯神經網絡
(待補充)
1.3.2 人工神經網絡
(待補充)