Python特訓營(大數據處理)

原創

2020-07-03 18:57

數據分析過程

定位數據

業務系統,官方網站(統計局,央行),數據服務商,自己

獲取數據

數據庫API,下載,拷貝,爬蟲,數據服務商提供的服務

清洗數據

存儲數據

保存是爲了再次使用,可以用數據庫也可以用文件,這裏涉及數據模型的設計,考慮數據的更新

加工數據

分類彙總,指標計算

展現數據

變成圖片

使用數據

發監管函

大數據分析特點

從樣本分析到總體分析
從因果分析到關聯分析
從精確分析到近似分析

數據->信息->知識->智慧

4v

volume
variety
volicity
value

NoSQL四種

KV
redis
文檔
mongo
列存儲
cassandra
圖數據庫
neo4j

大數據處理

採集

挑戰:併發量大

方法

系統日誌(flume kafka)
網絡數據(網絡爬蟲)
其他方法(使用其他系統特定接口)

預處理

將多個數據庫的數據導入一個數據庫並在導入式做預處理

數據清洗

處理髒數據

遺漏數據

根據重要性採用不同方法

刪除
極端值填充
-9999
根據統計值填充
隨機差值
模型填充
啞變量
若某個變量存在幾十個不同的值,可根據每個值得頻數,將頻數較小的值歸爲一類other,降低維度

離羣點處理

是不是業務運營動作產生

簡單統計分析
3
絕對離差
基於去其他對象距離
密度
基於聚類
處理方法
刪除
對數變換
平均值或中位數替代
採用對離羣點魯棒性高的算法

噪聲的處理

分箱,然後使用箱內的平均值等代替

不一致數據處理

編碼規則

數據集成

需解決的問題

模式集成問題
例如兩個系統中customer_id的匹配
冗餘問題
數據的衝突和處理
單位上的差異

數據轉換

規範化

消除數值型屬性因大小不一而造成偏差,例如KNN

最大-最小
Z-Score
Log
移動小數點將數據映射到[-1,1]

離散化

原因

模型需要,減少運算量
便於理解
克服數據中缺陷
方法
等頻法
100個樣本放入5箱,每箱20
等寬法
取值範圍在[0,100)的樣本,放入5箱,分別是[0,20),[20,40)…
聚類法
有監督的離散化方法

稀疏化

啞變量

合計處理

例如每日交易量->每月交易量

數據泛化

街道->城市,年齡->中年,老年

屬性構造

從原始值構造新的屬性

數據消減

減少數據量,降低數據維度,刪減冗餘信息.從而提高效率,甚至實現實時查詢
常見策略

數據立方合計
數據壓縮
使用特定編碼集
數據塊
離散化和概念層次
使用更高層概念
維度消減
檢測弱相關數據項

分析

分析相關性(定量),預測未來

分類和算法

聚類
K-means KNN
分類
梯度下降樹GBDT,樸素貝葉斯NB,DNN,CNN,LSTM
迴歸
時間序列
網頁排序

十大經典算法

支持度 num(A∩B)/num(T)
置信度 P(A∩B)/P(A)
Apriori算法
ID3
K-means

挖掘/呈現

與傳統方式差別是一般沒有特定主題
呈現:表格,圖形,動圖&3D

python處理大數據

遇到的問題

內存限制
計算
編譯形語言

解決問題

h5py

h5py.File(’’,’’) 此時數據是寫入磁盤,不佔用內存
hdfview 查看
group
SoftLink 軟連接
壓縮

pandas

numpy.memmap

numpy/flush

JIT

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.