機器學習系列-數據歸一化和數據處理

數據歸一化

數據歸一化的原因:在實際應用中,樣本的不同特徵的單位不同,會在求距離時造成很大的影響。比如:在兩個樣本中腫瘤大小的分別爲1cm和5cm,發現時間分別爲100天和200天,那麼在求距離時,時間差爲100、大小差爲4,那麼其結果會被時間所主導,因爲腫瘤大小的差距太小了。但是如果我們把時間用年做單位,0.27年與0.55年的差距又遠小於腫瘤大小的差距,結果又會被大小主導了。

我們發現,在量綱不同的情況下,以上的情況,不能反映樣本中每一個特徵的重要程度。這就需要數據歸一化了。

一般來說,我們的解決方案是:把所有的數據都映射到同一個尺度(量綱)上。

數據歸一化方法:最值歸一化和均值方差歸一化;

最值歸一化(normalization min-max標準化): 把所有數據映射到0-1之間。最值歸一化的使用範圍是特徵的分佈具有明顯邊界的(分數0~100分、灰度0~255),受outlier(數據邊界)的影響比較大;

公式:

均值方差歸一化(standardization Z-score): 把所有數據歸一到均值爲0方差爲1的分佈中。適用於數據中沒有明顯的邊界,有可能存在極端數據值的情況;

公式:,其中是所有樣本數據的均值,是所有樣本數據的標準差。

Sklearn中的歸一化我們在建模時要將數據集劃分爲訓練數據集&測試數據集。

訓練數據集進行歸一化處理,需要計算出訓練數據集的均值mean_train和方差std_train。

當我們在對測試數據集進行歸一化時,要計算測試數據的均值和方差麼?

答案是否定的。在對測試數據集進行歸一化時,仍然要使用訓練數據集的均值train_mean和方差std_train。這是因爲測試數據是模擬的真實環境,真實環境中可能無法得到均值和方差,對數據進行歸一化。只能夠使用公式(x_test - mean_train) / std_train並且,數據歸一化也是算法的一部分,針對後面所有的數據,也應該做同樣的處理。

因此我們要保存訓練數據集中得到的均值和方差。

缺失值處理

刪除法

簡單刪除法:得。如果解釋變量中存在對權重估計起決定行因素的變量,那麼這種方法可以有效減小偏差。如果解釋變量和權重並不相關,它並不能減小偏差。對於存在多個屬性缺失的情況,就需要對此方法將存在缺失值的數據條目(對象,元組,記錄)進行刪除。這種方法簡單易行,在對象有多個屬性缺失值、被刪除的含缺失值的對象與信息表中的數據量相比非常小的情況下是非常有效的。然而,這種方法卻有很大的侷限性。它是以減少歷史數據來換取信息的完備,會造成資源的大量浪費,丟棄了大量隱藏在這些對象中的信息。在信息表中本來包含的對象很少的情況下,刪除少量對象就足以嚴重影響到信息表信息的客觀性和結果的正確性;當每個屬性空值的百分比變化很大時,它的性能非常差。

權重法:當缺失值的類型爲非完全隨機缺失的時候,可以通過對完整的數據加權來減小偏差。把數據不完全的個案標記後,將完整的數據個案賦予不同的權重,個案的權重可以通過logistic或probit迴歸求不同屬性的缺失組合賦不同的權重,這將大大增加計算的難度,降低預測的準確性,這時權重法並不理想。

填補

這類方法是用一定的值去填充空值,從而使信息表完備化。通常基於統計學原理,根據決策表中其餘對象取值的分佈情況來對一個空值進行填充,譬如用其餘屬性的平均值來進行補充等。數據挖掘中常用的有以下幾種補齊方法:

人工填寫最瞭解數據的還是用戶自己,因此這個方法產生數據偏離最小,可能是填充效果最好的一種。然而一般來說,該方法很費時,當數據規模很大、空值很多的時候,該方法是不可行的。

特殊值填充將空值作爲一種特殊的屬性值來處理,它不同於其他的任何屬性值。如所有的空值都用“unknown”填充。這樣將形成另一個有趣的概念,可能導致嚴重的數據偏離,一般不推薦使用。

均值填充將信息表中的屬性分爲數值屬性和非數值屬性來分別進行處理。如果空值是數值型的,就根據該屬性在其他所有對象的取值的平均值來填充該缺失的屬性值;如果空值是非數值型的,就根據統計學中的衆數原理,用該屬性在其他所有對象的取值次數最多的值(即出現頻率最高的值)來補齊該缺失的屬性值。另外有一種與其相似的方法叫條件平均值填充法(Conditional Mean Completer)。在該方法中,缺失屬性值的補齊同樣是靠該屬性在其他對象中的取值求平均得到,但不同的是用於求平均的值並不是從信息表所有對象中取,而是從與該對象具有相同決策屬性值的對象中取得。這兩種數據的補齊方法,其基本的出發點都是一樣的,以最大概率可能的取值來補充缺失的屬性值,只是在具體方法上有一點不同。與其他方法相比,它是用現存數據的多數信息來推測缺失值。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章