文章目錄
數據分析過程
定位數據
業務系統,官方網站(統計局,央行),數據服務商,自己
獲取數據
數據庫API,下載,拷貝,爬蟲,數據服務商提供的服務
清洗數據
存儲數據
保存是爲了再次使用,可以用數據庫也可以用文件,這裏涉及數據模型的設計,考慮數據的更新
加工數據
分類彙總,指標計算
展現數據
變成圖片
使用數據
發監管函
大數據分析特點
- 從樣本分析到總體分析
- 從因果分析到關聯分析
- 從精確分析到近似分析
數據->信息->知識->智慧
4v
- volume
- variety
- volicity
- value
NoSQL四種
- KV
redis - 文檔
mongo - 列存儲
cassandra - 圖數據庫
neo4j
大數據處理
採集
挑戰:併發量大
方法
- 系統日誌(flume kafka)
- 網絡數據(網絡爬蟲)
- 其他方法(使用其他系統特定接口)
預處理
將多個數據庫的數據導入一個數據庫並在導入式做預處理
數據清洗
處理髒數據
遺漏數據
根據重要性採用不同方法
- 刪除
- 極端值填充
-9999 - 根據統計值填充
- 隨機差值
- 模型填充
- 啞變量
若某個變量存在幾十個不同的值,可根據每個值得頻數,將頻數較小的值歸爲一類other,降低維度
離羣點處理
是不是業務運營動作產生
- 簡單統計分析
- 3
- 絕對離差
- 基於去其他對象距離
- 密度
- 基於聚類
處理方法 - 刪除
- 對數變換
- 平均值或中位數替代
- 採用對離羣點魯棒性高的算法
噪聲的處理
分箱,然後使用箱內的平均值等代替
不一致數據處理
編碼規則
數據集成
需解決的問題
- 模式集成問題
例如兩個系統中customer_id的匹配 - 冗餘問題
- 數據的衝突和處理
單位上的差異
數據轉換
規範化
消除數值型屬性因大小不一而造成偏差,例如KNN
- 最大-最小
- Z-Score
- Log
- 移動小數點將數據映射到[-1,1]
離散化
原因
- 模型需要,減少運算量
- 便於理解
- 克服數據中缺陷
方法 - 等頻法
100個樣本放入5箱,每箱20 - 等寬法
取值範圍在[0,100)的樣本,放入5箱,分別是[0,20),[20,40)… - 聚類法
- 有監督的離散化方法
稀疏化
啞變量
合計處理
例如每日交易量->每月交易量
數據泛化
街道->城市,年齡->中年,老年
屬性構造
從原始值構造新的屬性
數據消減
減少數據量,降低數據維度,刪減冗餘信息.從而提高效率,甚至實現實時查詢
常見策略
- 數據立方合計
- 數據壓縮
使用特定編碼集 - 數據塊
- 離散化和概念層次
使用更高層概念 - 維度消減
檢測弱相關數據項
分析
分析相關性(定量),預測未來
分類和算法
- 聚類
K-means KNN - 分類
梯度下降樹GBDT,樸素貝葉斯NB,DNN,CNN,LSTM - 迴歸
- 時間序列
- 網頁排序
十大經典算法
支持度 num(A∩B)/num(T)
置信度 P(A∩B)/P(A)
Apriori算法
ID3
K-means
挖掘/呈現
與傳統方式差別是一般沒有特定主題
呈現:表格,圖形,動圖&3D
python處理大數據
遇到的問題
- 內存限制
- 計算
- 編譯形語言
解決問題
h5py
h5py.File(’’,’’) 此時數據是寫入磁盤,不佔用內存
hdfview 查看
group
SoftLink 軟連接
壓縮