數據分析與挖掘2

一.數據探索:對樣本數據的結構和規律進行分析的過程(數據質量分析 / 數據特徵分析)。

1.數據質量分析的主要任務是檢查原始數據中是否存在髒數據【缺失值,異常值,不一致的值,重複數據及含有特殊符號的數據等】。
缺失值分析:
記錄的缺失/記錄中某個字段信息的缺失
缺失值的處理:刪除存在缺失值的記錄/對可能值進行插補/不處理

異常值分析:
①簡單統計量分析
data.describe() #查看數據基本情況
②3theta原則
如果數據服從正態分佈,在3 原則下,異常值被定義爲一組測定值與平均值的偏差超過三倍標準差的值。
③箱型圖分析
箱型圖提供了識別異常值的一個標準:異常值通常被定義爲小於Ql-1.5IQR或大於Qu+1.5IQR的值。Ql稱爲下四分位數,Qu稱爲上四分位數。IQR稱爲四分位數間距。
箱型圖判斷異常值的標準以四分位數和四分位距爲基礎,四分位數具有一定的魯棒性:多達25%的數據可以變得任意遠而不會很大地擾動四分位數,所以異常值不能對這個標準施加影響。

一致性分析:
可能是對於重複存放的數據未能進行一致性更新造成的。
舉例:兩張表都存儲了用戶的電話號碼,但在用戶的電話號碼發生改變時只更新了一張表中的數據,兩張表就有了不一致的數據

2.數據特徵分析
分佈分析:
對於定量數據 可通過繪製頻率分佈表,頻率分佈直方圖,莖葉圖 直觀分析
步驟:
1求極差
2決定組距和組數
3決定分點
4列出頻率分佈表
5繪製頻率分佈直方圖
對於定性數據 可用餅圖和條形圖 直觀顯示

對比分析:
絕對數比較:
相對數比較:
||||
結構相對數 如:食品支出額佔消費支出總額比重。
比例相對數:
比較相對數:
強度相對數:性質不同但有一定聯繫的總量指標進行對比。
動態相對數:將同一現象在不同時期的指標數值進行對比,說明發展方向和變化速度。
||||

統計量分析:
用統計指標對定量數據進行統計描述,常從集中趨勢和離中趨勢兩個方面進行分析。
集中趨勢度量:
1.均值 mean() 2. 中位數 3.衆數
離中趨勢度量: 極差:最大值減最小值
變異係數:標準差相對於均值的離中趨勢。CV=s/x*100%
四分位數間距: 上四分位數與下四分位數之差。值越大,說明數據變異程度越大。
方差var() s
標準差std()
協方差cov()
計算樣本的偏度(三階矩)/峯度(四階矩)skew() kurt()
describe() //直接給出樣本數據的一些基本的統計量
sum() //計算樣本數據的總和

statistics=data.describe()
statistics.loc['range'] = statistics.loc['max']-statistics.loc['min']  #極差
statistics.loc['var'] = statistics.loc['std']/statistics.loc['mean']  #變異係數
statistics.loc['dis'] = statistics.loc['75%']-statistics.loc['25%'] #四分位數間距

週期性分析:
週期性分析是探索某個變量是否隨着時間變化而呈現出某種週期變化趨勢

貢獻度分析:

相關性分析:
1.直接繪製散點圖
2.繪製散點圖矩陣
3.計算相關係數
Pearson相關係數 / Sepearman相關係數 / 判定係數
數據樣本的相關係數矩陣D.corr(method=’ ')

統計作圖函數:
plot() 繪製線性二維圖,折線圖
pie() 繪製餅型圖
hist()繪製二維條形直方圖
boxplot()繪製樣本數據的箱型圖
plot(logy=True)繪製y軸的對數圖形
plot(yerr=error)繪製誤差條形圖

二.數據預處理

三.分類與預測
分類主要是預測分類標號 而預測主要是建立連續值函數模型

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章