數據清理中常用的幾種處理缺失值的方法

原創

2020-06-16 02:23

由於調查、編碼和錄入誤差，數據中可能存在一些無效值和缺失值，需要給予適當的處理。常用的處理方法有：估算，整例刪除，變量刪除和成對刪除。
（1）估算(estimation)。最簡單的辦法就是用某個變量的樣本均值、中位數或衆數代替無效值和缺失值。這種辦法簡單，但沒有充分考慮數據中已有的信息，誤差可能較大。另一種辦法就是根據調查對象對其他問題的答案，通過變量之間的相關分析或邏輯推論進行估計。例如，某一產品的擁有情況可能與家庭收入有關，可以根據調查對象的家庭收入推算擁有這一產品的可能性。
（2）整例刪除(casewise deletion)是剔除含有缺失值的樣本。由於很多問卷都可能存在缺失值，這種做法的結果可能導致有效樣本量大大減少，無法充分利用已經收集到的數據。因此，只適合關鍵變量缺失，或者含有無效值或缺失值的樣本比重很小的情況。
（3）變量刪除(variable deletion)。如果某一變量的無效值和缺失值很多，而且該變量對於所研究的問題不是特別重要，則可以考慮將該變量刪除。這種做法減少了供分析用的變量數目，但沒有改變樣本量。
（4）成對刪除(pairwise deletion)是用一個特殊碼(通常是9、99、999等)代表無效值和缺失值，同時保留數據集中的全部變量和樣本。但是，在具體計算時只採用有完整答案的樣本，因而不同的分析因涉及的變量不同，其有效樣本量也會有所不同。這是一種保守的處理方法，最大限度地保留了數據集中的可用信息。
採用不同的處理方法可能對分析結果產生影響，尤其是當缺失值的出現並非隨機且變量之間明顯相關時。因此，在調查中應當儘量避免出現無效值和缺失值，保證數據的完整性。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

數據清理中常用的幾種處理缺失值的方法

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

基本數據結構——線性結構（列表/無序表）

算法複雜度評價指標（大o表示法）

“變位詞”判斷問題及算法複雜度

基本數據結構——線性結構（有序表）

python兩種內置數據類型（列表list和字典dict）上各個操作的大O數量級

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結