缺失值處理

缺失值是指在數據採集與整理過程中丟失的內容。

一般情況下,數據都是以關係型表的方式採集的,如下表是某次調查中一些受訪者的基本情況見本文最後的表格。 

如果在表格中,某一個數據採集時無法獲得,就會出現缺失值,例如在上表中張三的性別和趙六的年齡就出現了缺失。

缺失值的處理一般有兩種方式,一是刪除對應的記錄,例如在上例中,如果張三的性別沒有記錄,出現缺失,則將張三的所有信息全部從數據庫中刪掉。這種方式在數據缺失非常少的情況下是可行的,但如果各個項目中都有少數的數據缺失存在,對所有缺失的記錄都進行刪除可能就會使總樣本量變得非常小,從而損失許多有用信息。缺失值處理的第二種方式是進行插值處理,所謂插值,是指人爲地用一個數值去替代缺失的數值。

插值處理根據插值的不同,有如下一些方法:

1
.隨機插值

根據缺失值的各種可能情況,等概率地進行插值。

例如在上例中,張三的性別有兩種可能性,一是,二是,可以簡單地擲一枚硬幣,如果正面朝上,則賦值爲,如果反面朝上,則賦值爲

2
.依概率插值

隨機插值是假定各種一個變量取各種值的可能性是相等的,但有些情況下,我們可以事先知道一個變量取各種值的概率,例如,我們知道在上述的單位中,女性佔的比例是75%,男性的比例是25%,則在對張三的性別進行賦值時,不是按50%概率賦爲,而是按75%概率賦爲

3
.就近插值

就近插值是指根據缺失記錄附近的其他記錄的情況對缺失值進行插值,例如在上例中,張三的性別出現缺失,此時可以用其鄰近的李四的性別數據替代張三的性別數據,由於李四的性別爲,所以將張三的性別也賦爲

就近插值是依概率插值的一種簡化處理,設想在整個單位的職工中,女性佔的比例是75%,則在一般情況下,與張三鄰近的記錄性別爲的概率也應當爲75%,就近插值實際上就是依概率插值。

使用就近插值時,需要對抽樣過程進行必要的瞭解,如果抽樣時性別有交叉的情況,例如經常是調查完一名男性後就調查一名女性,則使用就近插值就會出現較多的錯誤。

4
.分類插值

依概率插值是將記錄置於總體的背景上進行插值,沒有充分利用記錄的其他信息。如果在記錄的其他信息中有某些項目與缺失項目存在相關性,則可以根據這些輔助信息對總體進行分類,在每一類內部進行插值處理。

例如在上例中,張三的職業是護士,假定該單位中95%的護士性別爲,則在進行插值是,就不是使用全單位的女性比例75%,而是使用護士中的女性比例95%對張三的性別進行賦值。 
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章