基于大数据风控方向的大数据计算平台需求整理

原創

2020-06-19 21:27

基于大数据风控方向的大数据计算平台需求整理

背景

为响应国家深化金融体制改革的要求，各大金融机构都在探索服务下沉，包括信托行业在内，很多金融机构都在尝试消费金融各种场景。而信托行业在进军消费金融的路上面临的挑战会更多一些——信托行业近年来和房地产和基建等行业关系更加紧密一些，相比银行等行业，直接服务用户的经验和能力，基础数据和基础设施等都比较薄弱甚至欠缺。
本人在支持消费金融业务的过程中，就风控需求做了一些整体的设计和实施。在过程中，就大数据相关的需求做了如下的规划。

需求分解

数据存储

除了支持HDFS存储，还需要打通OSS——考虑到日志采集方案。
参考使用Hive进行OSS数据处理的一个最佳实践，需要如下的feature：

CREATE EXTERNAL TABLE logoss (logcontent string) partitioned by (year string, month string, day string) stored AS textfile location 'oss://akid:[email protected]/path';

ETL

从数据源的角度来说，需要支持：

关系型
    mysql
    oracle
    pgsql
非关系型
    ftp/http
    mongodb
    redis
    hbase
流式
    kafka
    MQ

从工具的角度，需要支持：

sqoop
flume
datax

计算引擎

为了支持特征工程的生产任务，需要支持批量计算与流式计算的常用计算引擎/模式，并需要支持UDF，MR等扩展能力。
除此之外，为了支持后续采购联合建模服务，需要支持较多数据探索和模型训练等方面的需求，故也需要综合考虑python、R等集成，以及mahout、keras等；

批量计算
    Hive
    Impala
    Spark
流式计算
    Spark Stream
    flink
扩展定制
    UDF（含UDAF，UDTF）
    支持weka
    支持mahout
    支持vowpal_wabbit接入
（建模）数据探索需求
    支持Python集成
    支持R集成
    R&Python 扩展库
        keras
        sk learn
        pandas

调度

生产级的支持，对周期性调度的需求是与生俱来的。同时，由于oozie等常用开源调度引擎都是基于一张DAG对应一个调度作业的模式，而每次更改（比如加入新的数据处理节点）都需要重启作业，同时过大的DAG维护难度也更高，所以需要考虑通过某种机制打破这种局限，实现“图间依赖”调度。【TODO】

支持的作业类型
    hive
    spark
    jar
    shell
    python
    R
调度周期
    时，日，周，月
重跑
    可重跑补数据
系统变量与自定义变量
    bizdate
     ${coord:formatTime(coord:dateOffset(coord:dateTzOffset(coord:nominalTime(), "Asia/Shanghai"), -1, 'DAY'), 'yyyyMMdd')}
图间依赖
    降级实现：check机制

安全

安全性生产级平台的重要考虑，而金融行业更是如此。

统一、多账户
    各服务统一账户体系
    身份打通
权限管理
    多服务统一权限管理
    权限管理粒度至少是表级，最好能到行/列 级
数据加密
    支持基于KMS的表级数据加密
    透明加解密
    KMS完全可控

开发-生产管理模式

开发测试环境与投产
    开发-测试试跑-提交发布-发布投产
多人协作开发

界面

hive
    hue
工作流/任务调度
    hue-oozie
数据探索
    Python
        jupyter
    R
        RStudio（多用户）
开发调试
    Yarn 日志可查

监控

任务错误监控、报警
作业超时监控、报警
系统运行日报

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

基于大数据风控方向的大数据计算平台需求整理

基于大数据风控方向的大数据计算平台需求整理

背景

需求分解

数据存储

ETL

计算引擎

调度

安全

开发-生产管理模式

界面

监控

外包開發模式下gitlab與OpenProject聯動的開發過程管理

【視頻直播場景下P2P對等網技術①】挑戰與形式化分析

【視頻直播場景下P2P對等網技術②】任意兩節點的聯通性能評估

信託公司消金小額貸款項目的現金流預測

人才盤點與項目-人員編排

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結