數據預處理(數據審覈、缺失值處理、標準化正則化、降維等)

概述

數據預處理(data pre-processing)是指在主要的處理以前對數據進行的一些處理。現實世界中數據大體上都是不完整,不一致的髒數據,無法直接進行數據挖掘,或挖掘結果差強人意。爲了提高數據挖掘的質量產生了數據預處理技術。
數據預處理在數據挖掘之前使用,大大提高了數據挖掘模式的質量,降低實際挖掘所需要的時間。

預處理內容

數據審覈

從不同渠道取得的統計數據,在審覈的內容和方法上有所不同。

對於原始數據應主要從完整性和準確性兩個方面去審覈。

完整性審覈主要是檢查應調查的單位或個體是否有遺漏,所有的調查項目或指標是否填寫齊全。

準確性審覈主要是包括兩個方面:一是檢查數據資料是否真實地反映了客觀實際情況,內容是否符合實際;二是檢查數據是否有錯誤,計算是否正確等。審覈數據準確性的方法主要有邏輯檢查和計算檢查。邏輯檢查主要是審覈數據是否符合邏輯,內容是否合理,各項目或數字之間有無相互矛盾的現象,此方法主要適合對定性(品質)數據的審覈。計算檢查是檢查調查表中的各項數據在計算結果和計算方法上有無錯誤,主要用於對定量(數值型)數據的審覈。

對於通過其他渠道取得的二手資料,除了對其完整性和準確性進行審覈外,還應該着重審覈數據的適用性和時效性

二手資料可以來自多種渠道,有些數據可能是爲特定目的通過專門調查而獲得的,或者是已經按照特定目的需要做了加工處理。對於使用者來說,首先應該弄清楚數據的來源、數據的口徑以及有關的背景資料,以便確定這些資料是否符合自己分析研究的需要,是否需要重新加工整理等,不能盲目生搬硬套。此外,還要對數據的時效性進行審覈,對於有些時效性較強的問題,如果取得的數據過於滯後,可能失去了研究的意義。一般來說,應儘可能使用最新的統計數據。數據經審覈後,確認適合於實際需要,纔有必要做進一步的加工整理。

數據審覈的內容主要包括以下四個方面:
1.準確性審覈。

主要是從數據的真實性與精確性角度檢查資料,其審覈的重點是檢查調查過程中所發生的誤差。

2.適用性審覈。

主要是根據數據的用途,檢查數據解釋說明問題的程度。具體包括數據與調查主題、與目標總體的界定、與調查項目的解釋等是否匹配。

3.及時性審覈。

主要是檢查數據是否按照規定時間報送,如未按規定時間報送,就需要檢查未及時報送的原因。

4.一致性審覈。

主要是檢查數據在不同地區或國家、在不同的時間段是否具有可比性。

數據篩選

對審覈過程中發現的錯誤應儘可能予以糾正。調查結束後,當數據發現的錯誤不能予以糾正,或者有些數據不符合調查的要求而又無法彌補時,就需要對數據進行篩選。
數據篩選包括兩方面的內容:

一是將某些不符合要求的數據或有明顯錯誤地數據予以剔除;

二是將符合某種特定條件的數據篩選出來,對不符合特定條件的數據予以剔除。數據的篩選在市場調查、經濟分析、管理決策中是十分重要的。

數據排序

數據排序是按照一定順序將數據排列,以便於研究者通過瀏覽數據發現一些明顯的特徵或趨勢,找到解決問題的線索。除此之外,排序還有助於對數據檢查糾錯,爲重新歸類或分組等提供依據。在某些場合,排序本身就是分析的目的之一。排序可藉助於計算機很容易的完成。

對於分類數據,如果是字母型數據,排序有升序與降序之分,但習慣上升序使用得更爲普遍,因爲升序與字母的自然排列相同;如果是漢字型數據,排序方式有很多,比如按漢字的首位拼音字母排列,這與字母型數據的排序完全一樣,也可按筆畫排序,其中也有筆畫多少的升序降序之分。交替運用不同方式排序,在漢字型數據的檢查糾錯過程中十分有用。

對於數值型數據,排序只有兩種,即遞增和遞減。排序後的數據也稱爲順序統計量。

數據方法

去除唯一屬性

唯一屬性通常是一些id屬性,這些屬性並不能刻畫樣本自身的分佈規律,所以簡單地刪除這些屬性即可。

處理缺失值

缺失值處理的三種方法:

直接使用含有缺失值的特徵;
刪除含有缺失值的特徵(該方法在包含缺失值的屬性含有大量缺失值而僅僅包含極少量有效值時是有效的);
缺失值補全。

常見的缺失值補全方法:均值插補、同類均值插補、建模預測、高維映射、多重插補、極大似然估計、壓縮感知和矩陣補全

(1)均值插補

如果樣本屬性的距離是可度量的,則使用該屬性有效值的平均值來插補缺失的值;

如果的距離是不可度量的,則使用該屬性有效值的衆數來插補缺失的值。

(2)同類均值插補

首先將樣本進行分類,然後以該類中樣本的均值來插補缺失值。

(3)建模預測

將缺失的屬性作爲預測目標來預測,將數據集按照是否含有特定屬性的缺失值分爲兩類,利用現有的機器學習算法對待預測數據集的缺失值進行預測。

該方法的根本的缺陷是如果其他屬性和缺失屬性無關,則預測的結果毫無意義;但是若預測結果相當準確,則說明這個缺失屬性是沒必要納入數據集中的;一般的情況是介於兩者之間。

(4)多重插補

多重插補認爲待插補的值是隨機的,實踐上通常是估計出待插補的值,再加上不同的噪聲,形成多組可選插補值,根據某種選擇依據,選取最合適的插補值。

(5)手動插補

插補處理只是將未知值補以我們的主觀估計值,不一定完全符合客觀事實。在許多情況下,根據對所在領域的理解,手動對缺失值進行插補的效果會更好。

數據標準化

數據標準化

數據標準化是將樣本的屬性縮放到某個指定的範圍。

數據標準化的原因:

某些算法要求樣本具有零均值和單位方差;

需要消除樣本不同屬性具有不同量級時的影響:

①數量級的差異將導致量級較大的屬性佔據主導地位;
②數量級的差異將導致迭代收斂速度減慢;
③依賴於樣本距離的算法對於數據的數量級非常敏感。

min-max標準化(歸一化):對於每個屬性,設minA和maxA分別爲屬性A的最小值和最大值,將A的一個原始值x通過min-max標準化映射成在區間[0,1]中的值x’,其公式爲:新數據=(原數據 - 最小值)/(最大值 - 最小值)

z-score標準化(規範化):基於原始數據的均值(mean)和標準差(standarddeviation)進行數據的標準化。將A的原始值x使用z-score標準化到x’。z-score標準化方法適用於屬性A的最大值和最小值未知的情況,或有超出取值範圍的離羣數據的情況。新數據=(原數據- 均值)/ 標準差
在這裏插入圖片描述
在這裏插入圖片描述
均值和標準差都是在樣本集上定義的,而不是在單個樣本上定義的。標準化是針對某個屬性的,需要用到所有樣本在該屬性上的值。

數據正則化

數據正則化是將樣本的某個範數(如L1範數)縮放到到位1,正則化的過程是針對單個樣本的,對於每個樣本將樣本縮放到單位範數。

設數據集
在這裏插入圖片描述
對樣本首先計算Lp範數:
在這裏插入圖片描述
正則化後的結果爲:每個屬性值除以其Lp範數:
在這裏插入圖片描述

特徵選擇(降維)

從給定的特徵集合中選出相關特徵子集的過程稱爲特徵選擇。

進行特徵選擇的兩個主要原因是:

減輕維數災難問題;
降低學習任務的難度。

進行特徵選擇必須確保不丟失重要特徵。

常見的特徵選擇類型分爲三類:過濾式(filter)、包裹式(wrapper)、嵌入式(embedding)

過濾式選擇:

該方法先對數據集進行特徵選擇,然後再訓練學習器。特徵選擇過程與後續學習器無關。Relief是一種著名的過濾式特徵選擇方法。

包裹式選擇:

該方法直接把最終將要使用的學習器的性能作爲特徵子集的評價原則。其優點是直接針對特定學習器進行優化,因此通常包裹式特徵選擇比過濾式特徵選擇更好,缺點是由於特徵選擇過程需要多次訓練學習器,故計算開銷要比過濾式特徵選擇要大得多。

常見的降維方法:SVD、PCA
詳解鏈接:https://blog.csdn.net/qq_25041667/article/details/102021583

發佈了54 篇原創文章 · 獲贊 5 · 訪問量 4839
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章