淺析數據預處理

數據分析一般分爲兩條主線:

第一條主線是數據層面

第二條主線是業務層面


數據分析的一般步驟:

產生數據—>收集數據—>存儲數據—>提取數據—>數據預處理—>數據分析—>數據可視化—>數據報告的解釋說明


一、數據預處理的必要性

目前,數據挖掘的研究工作大都集中在算法的探討而忽視對數據處理的研究。事實上,數據預處理對數據挖掘十分重要,一些成熟的算法對其處理的數據集合都有一定的要求:比如數據的完整性好,冗餘性小,屬性的相關性小等。

數據預處理是數據挖掘的重要一環,而且必不可少。要使挖掘算法挖掘出有效的知識,必須爲其提供乾淨,準確,簡潔的數據。然而,實際應用系統中收集的數據通常是“髒”數據。


二、數據存在的問題

不完整: # 缺少數據值       #缺少一些重要屬性          #僅包含聚集數據

有噪聲:#包含錯誤或者孤立點     #例如,工資=-100   

數據不一致:#在編碼或者命名上存在差異           #例如,過去的等級“1,23″而現在的等級“A,B,C        #重複記錄間的不一致性


三、數據存在問題的原因

不完整數據的成因

數據收集的時候就缺乏合適的值

數據收集時和數據分析時的不同考慮因素

人爲/硬件/軟件問題

噪聲數據(不正確的值)的成因

數據收集工具的問題

數據輸入時的人爲計算機錯誤

數據傳輸中產生的錯誤

數據不一致性的成因

不同的數據源

違反了函數依賴性


四、預處理重要性

沒有高質量的數據,就沒有高質量的挖掘結果

高質量的決策必須依賴高質量的數據

例如,重複值或者空缺值將會產生不正確的或者令人誤導的統計

數據倉庫需要對高質量的數據進行一致地集成

PS:數據預處理是數據分析流程中工作量最大的


五、數據預處理的常規方法

1數據清洗

去掉噪聲和無關數據

1

2數據集成

將多個數據源中的數據結合起來存放在一個一致的數據存儲中

21

3數據變換

把原始數據轉換成爲適合數據挖掘的形式

31

4數據歸約

主要方法包括:數據立方體聚集,維歸約,數據壓縮,數值歸約,

離散化和概念分層等

41


淺析下實際工作中數據分析的預處理階段:

數據層面的分析:

數據預處理:【空值,缺失值,異常值等】—>處理方法主要是刪,填(一般填中位數,均值等)


處理的邏輯操作:一般邏輯順序如下

1.異常值:測量值減去均值大於2倍的標準差,我則認爲這是異常值。—>箱型圖也能看出異常值。datahoop跑箱型圖也能看出異常值。

也可以不處理:不處理也要說明理由。但是主要看佔比和實際業務情況。記住現實生活中重要的一點:存在即合理。


2.數據標準化:把數據縮放。先構造新變量後再做標準化,防止量綱變大影響數據模型算法。


3.量綱:量綱的大小變化會影響大多數,自變量波動很大時會影響大多數數據模型算法。所以我們要做數據標準化。數據標準化就是把所有數據歸於一個範圍區間內。—>Z值公式:自變量x=(原值減去均值)除以標準差。


4.共線性:目的是降維,共線性——相關係數矩陣。

相關係數小於0.3即爲弱相關。相關係數0.7到0.9左右的話即認爲是強相關。

做算法之前,一定要去看相關性。

想要降相關性的方法—>一般有兩種方法:1.增大樣板容量的量2.構造新變量(增量法和比值法)—>降維(因子分析和主成份分析)。


主成分分析與因子分析的區別:

主成分分析:主成分分析就是設法將原來衆多具有一定相關性,重新組合成一組新的互相無關的綜合指標來代替原來的指標。綜合指標即爲主成分。所得出的少數幾個主成分,要儘可能地保留原始變量的信息,且彼此不相關。

因子分析是研究如何以最少的信息丟失,將衆多原始變量分解成少數幾個因子變量,以及如何使因子變量具有較強的可解釋性的一種多元統計分析方法。


因子分析:因子分析不是對原始變量的重新組合,而是對原始變量進行分解,分解爲公共因子和特殊因子兩部分。具體說,就是要找出某個問題中科直接測量的具有一定相關性的諸指標 ,如何受少數幾個在專業中有意義、又不可直接測量到、且相對獨立的因子支配的規律,從而可用各指標的測定來間接確定各因子狀態。


因子分析只能解釋部分變異,主成分分析能解釋所有變異 。

數據預處理的思路一定要完整,要給出數據預處理的處理理由。


舉例練習:活用Excel2016版本以上,基本上都有數據分析的功能。

刪除空值

51



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章