Python特训营(大数据处理)

数据分析过程

定位数据

业务系统,官方网站(统计局,央行),数据服务商,自己

获取数据

数据库API,下载,拷贝,爬虫,数据服务商提供的服务

清洗数据

存储数据

保存是为了再次使用,可以用数据库也可以用文件,这里涉及数据模型的设计,考虑数据的更新

加工数据

分类汇总,指标计算

展现数据

变成图片

使用数据

发监管函

大数据分析特点

  • 从样本分析到总体分析
  • 从因果分析到关联分析
  • 从精确分析到近似分析

数据->信息->知识->智慧

4v

  • volume
  • variety
  • volicity
  • value

NoSQL四种

  • KV
    redis
  • 文档
    mongo
  • 列存储
    cassandra
  • 图数据库
    neo4j

大数据处理

采集

挑战:并发量大

方法

  • 系统日志(flume kafka)
  • 网络数据(网络爬虫)
  • 其他方法(使用其他系统特定接口)

预处理

将多个数据库的数据导入一个数据库并在导入式做预处理

数据清洗

处理脏数据

遗漏数据

根据重要性采用不同方法

  • 删除
  • 极端值填充
    -9999
  • 根据统计值填充
  • 随机差值
  • 模型填充
  • 哑变量
    若某个变量存在几十个不同的值,可根据每个值得频数,将频数较小的值归为一类other,降低维度

离群点处理

是不是业务运营动作产生

  • 简单统计分析
  • 3
  • 绝对离差
  • 基于去其他对象距离
  • 密度
  • 基于聚类
    处理方法
  • 删除
  • 对数变换
  • 平均值或中位数替代
  • 采用对离群点鲁棒性高的算法

噪声的处理

分箱,然后使用箱内的平均值等代替

不一致数据处理

编码规则

数据集成

需解决的问题

  • 模式集成问题
    例如两个系统中customer_id的匹配
  • 冗余问题
  • 数据的冲突和处理
    单位上的差异

数据转换

规范化

消除数值型属性因大小不一而造成偏差,例如KNN

  • 最大-最小
  • Z-Score
  • Log
  • 移动小数点将数据映射到[-1,1]

离散化

原因

  • 模型需要,减少运算量
  • 便于理解
  • 克服数据中缺陷
    方法
  • 等频法
    100个样本放入5箱,每箱20
  • 等宽法
    取值范围在[0,100)的样本,放入5箱,分别是[0,20),[20,40)…
  • 聚类法
  • 有监督的离散化方法

稀疏化

哑变量

合计处理

例如每日交易量->每月交易量

数据泛化

街道->城市,年龄->中年,老年

属性构造

从原始值构造新的属性

数据消减

减少数据量,降低数据维度,删减冗余信息.从而提高效率,甚至实现实时查询
常见策略

  • 数据立方合计
  • 数据压缩
    使用特定编码集
  • 数据块
  • 离散化和概念层次
    使用更高层概念
  • 维度消减
    检测弱相关数据项

分析

分析相关性(定量),预测未来

分类和算法

  • 聚类
    K-means KNN
  • 分类
    梯度下降树GBDT,朴素贝叶斯NB,DNN,CNN,LSTM
  • 回归
  • 时间序列
  • 网页排序

十大经典算法

支持度 num(A∩B)/num(T)
置信度 P(A∩B)/P(A)
Apriori算法
ID3
K-means

挖掘/呈现

与传统方式差别是一般没有特定主题
呈现:表格,图形,动图&3D

python处理大数据

遇到的问题

  • 内存限制
  • 计算
  • 编译形语言

解决问题

h5py

h5py.File(’’,’’) 此时数据是写入磁盘,不占用内存
hdfview 查看
group
SoftLink 软连接
压缩

pandas

numpy.memmap

numpy/flush

JIT

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章