Python特訓營(大數據處理)

數據分析過程

定位數據

業務系統,官方網站(統計局,央行),數據服務商,自己

獲取數據

數據庫API,下載,拷貝,爬蟲,數據服務商提供的服務

清洗數據

存儲數據

保存是爲了再次使用,可以用數據庫也可以用文件,這裏涉及數據模型的設計,考慮數據的更新

加工數據

分類彙總,指標計算

展現數據

變成圖片

使用數據

發監管函

大數據分析特點

  • 從樣本分析到總體分析
  • 從因果分析到關聯分析
  • 從精確分析到近似分析

數據->信息->知識->智慧

4v

  • volume
  • variety
  • volicity
  • value

NoSQL四種

  • KV
    redis
  • 文檔
    mongo
  • 列存儲
    cassandra
  • 圖數據庫
    neo4j

大數據處理

採集

挑戰:併發量大

方法

  • 系統日誌(flume kafka)
  • 網絡數據(網絡爬蟲)
  • 其他方法(使用其他系統特定接口)

預處理

將多個數據庫的數據導入一個數據庫並在導入式做預處理

數據清洗

處理髒數據

遺漏數據

根據重要性採用不同方法

  • 刪除
  • 極端值填充
    -9999
  • 根據統計值填充
  • 隨機差值
  • 模型填充
  • 啞變量
    若某個變量存在幾十個不同的值,可根據每個值得頻數,將頻數較小的值歸爲一類other,降低維度

離羣點處理

是不是業務運營動作產生

  • 簡單統計分析
  • 3
  • 絕對離差
  • 基於去其他對象距離
  • 密度
  • 基於聚類
    處理方法
  • 刪除
  • 對數變換
  • 平均值或中位數替代
  • 採用對離羣點魯棒性高的算法

噪聲的處理

分箱,然後使用箱內的平均值等代替

不一致數據處理

編碼規則

數據集成

需解決的問題

  • 模式集成問題
    例如兩個系統中customer_id的匹配
  • 冗餘問題
  • 數據的衝突和處理
    單位上的差異

數據轉換

規範化

消除數值型屬性因大小不一而造成偏差,例如KNN

  • 最大-最小
  • Z-Score
  • Log
  • 移動小數點將數據映射到[-1,1]

離散化

原因

  • 模型需要,減少運算量
  • 便於理解
  • 克服數據中缺陷
    方法
  • 等頻法
    100個樣本放入5箱,每箱20
  • 等寬法
    取值範圍在[0,100)的樣本,放入5箱,分別是[0,20),[20,40)…
  • 聚類法
  • 有監督的離散化方法

稀疏化

啞變量

合計處理

例如每日交易量->每月交易量

數據泛化

街道->城市,年齡->中年,老年

屬性構造

從原始值構造新的屬性

數據消減

減少數據量,降低數據維度,刪減冗餘信息.從而提高效率,甚至實現實時查詢
常見策略

  • 數據立方合計
  • 數據壓縮
    使用特定編碼集
  • 數據塊
  • 離散化和概念層次
    使用更高層概念
  • 維度消減
    檢測弱相關數據項

分析

分析相關性(定量),預測未來

分類和算法

  • 聚類
    K-means KNN
  • 分類
    梯度下降樹GBDT,樸素貝葉斯NB,DNN,CNN,LSTM
  • 迴歸
  • 時間序列
  • 網頁排序

十大經典算法

支持度 num(A∩B)/num(T)
置信度 P(A∩B)/P(A)
Apriori算法
ID3
K-means

挖掘/呈現

與傳統方式差別是一般沒有特定主題
呈現:表格,圖形,動圖&3D

python處理大數據

遇到的問題

  • 內存限制
  • 計算
  • 編譯形語言

解決問題

h5py

h5py.File(’’,’’) 此時數據是寫入磁盤,不佔用內存
hdfview 查看
group
SoftLink 軟連接
壓縮

pandas

numpy.memmap

numpy/flush

JIT

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章