Python特训营(大数据处理)

原創

2020-07-03 18:57

数据分析过程

定位数据

业务系统,官方网站(统计局,央行),数据服务商,自己

获取数据

数据库API,下载,拷贝,爬虫,数据服务商提供的服务

清洗数据

存储数据

保存是为了再次使用,可以用数据库也可以用文件,这里涉及数据模型的设计,考虑数据的更新

加工数据

分类汇总,指标计算

展现数据

变成图片

使用数据

发监管函

大数据分析特点

从样本分析到总体分析
从因果分析到关联分析
从精确分析到近似分析

数据->信息->知识->智慧

4v

volume
variety
volicity
value

NoSQL四种

KV
redis
文档
mongo
列存储
cassandra
图数据库
neo4j

大数据处理

采集

挑战:并发量大

方法

系统日志(flume kafka)
网络数据(网络爬虫)
其他方法(使用其他系统特定接口)

预处理

将多个数据库的数据导入一个数据库并在导入式做预处理

数据清洗

处理脏数据

遗漏数据

根据重要性采用不同方法

删除
极端值填充
-9999
根据统计值填充
随机差值
模型填充
哑变量
若某个变量存在几十个不同的值,可根据每个值得频数,将频数较小的值归为一类other,降低维度

离群点处理

是不是业务运营动作产生

简单统计分析
3
绝对离差
基于去其他对象距离
密度
基于聚类
处理方法
删除
对数变换
平均值或中位数替代
采用对离群点鲁棒性高的算法

噪声的处理

分箱,然后使用箱内的平均值等代替

不一致数据处理

编码规则

数据集成

需解决的问题

模式集成问题
例如两个系统中customer_id的匹配
冗余问题
数据的冲突和处理
单位上的差异

数据转换

规范化

消除数值型属性因大小不一而造成偏差,例如KNN

最大-最小
Z-Score
Log
移动小数点将数据映射到[-1,1]

离散化

原因

模型需要,减少运算量
便于理解
克服数据中缺陷
方法
等频法
100个样本放入5箱,每箱20
等宽法
取值范围在[0,100)的样本,放入5箱,分别是[0,20),[20,40)…
聚类法
有监督的离散化方法

稀疏化

哑变量

合计处理

例如每日交易量->每月交易量

数据泛化

街道->城市,年龄->中年,老年

属性构造

从原始值构造新的属性

数据消减

减少数据量,降低数据维度,删减冗余信息.从而提高效率,甚至实现实时查询
常见策略

数据立方合计
数据压缩
使用特定编码集
数据块
离散化和概念层次
使用更高层概念
维度消减
检测弱相关数据项

分析

分析相关性(定量),预测未来

分类和算法

聚类
K-means KNN
分类
梯度下降树GBDT,朴素贝叶斯NB,DNN,CNN,LSTM
回归
时间序列
网页排序

十大经典算法

支持度 num(A∩B)/num(T)
置信度 P(A∩B)/P(A)
Apriori算法
ID3
K-means

挖掘/呈现

与传统方式差别是一般没有特定主题
呈现:表格,图形,动图&3D

python处理大数据

遇到的问题

内存限制
计算
编译形语言

解决问题

h5py

h5py.File(’’,’’) 此时数据是写入磁盘,不占用内存
hdfview 查看
group
SoftLink 软连接
压缩

pandas

numpy.memmap

numpy/flush

JIT

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.