關於數據缺失問題的總結[轉]

作者enova 摘自:《計算機科學論壇》

造成數據缺失的原因
    在各種實用的數據庫中,屬性值缺失的情況經常發全甚至是不可避免的。因此,在大多數情況下,信息系統是不完備的,或者說存在某種程度的不完備。造成數據缺失的原因是多方面的,主要可能有以下幾種:
    1)有些信息暫時無法獲取。例如在醫療數據庫中,並非所有病人的所有臨牀檢驗結果都能在給定的時間內得到,就致使一部分屬性值空缺出來。又如在申請表數據中,對某些問題的反映依賴於對其他問題的回答。
   2)有些信息是被遺漏的。可能是因爲輸入時認爲不重要、忘記填寫了或對數據理解錯誤而遺漏,也可能是由於數據採集設備的故障、存儲介質的故障、傳輸媒體的故障、一些人爲因素等原因而丟失了。
       3)有些對象的某個或某些屬性是不可用的。也就是說,對於這個對象來說,該屬性值是不存在的,如一個未婚者的配偶姓名、一個兒童的固定收入狀況等。
       4)有些信息(被認爲)是不重要的。如一個屬性的取值與給定語境是無關的,或訓練數據庫的設計者並不在乎某個屬性的取值(稱爲dont-care value)[37]。
      5)獲取這些信息的代價太大。
      6)系統實時性能要求較高,即要求得到這些信息前迅速做出判斷或決策。
 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章