基於大數據風控方向的大數據計算平臺需求整理

基於大數據風控方向的大數據計算平臺需求整理

背景

爲響應國家深化金融體制改革的要求,各大金融機構都在探索服務下沉,包括信託行業在內,很多金融機構都在嘗試消費金融各種場景。而信託行業在進軍消費金融的路上面臨的挑戰會更多一些——信託行業近年來和房地產和基建等行業關係更加緊密一些,相比銀行等行業,直接服務用戶的經驗和能力,基礎數據和基礎設施等都比較薄弱甚至欠缺。
本人在支持消費金融業務的過程中,就風控需求做了一些整體的設計和實施。在過程中,就大數據相關的需求做了如下的規劃。

需求分解

大數據平臺需求

數據存儲

除了支持HDFS存儲,還需要打通OSS——考慮到日誌採集方案。
參考 使用Hive進行OSS數據處理的一個最佳實踐 ,需要如下的feature:

CREATE EXTERNAL TABLE logoss (logcontent string) partitioned by (year string, month string, day string) stored AS textfile location 'oss://akid:[email protected]/path';

ETL

從數據源的角度來說,需要支持:

關係型
    mysql
    oracle
    pgsql
非關係型
    ftp/http
    mongodb
    redis
    hbase
流式
    kafka
    MQ

從工具的角度,需要支持:

sqoop
flume
datax

計算引擎

爲了支持特徵工程的生產任務,需要支持批量計算與流式計算的常用計算引擎/模式,並需要支持UDF,MR等擴展能力。
除此之外,爲了支持後續採購聯合建模服務,需要支持較多數據探索和模型訓練等方面的需求,故也需要綜合考慮python、R等集成,以及mahout、keras等;

批量計算
    Hive
    Impala
    Spark
流式計算
    Spark Stream
    flink
擴展定製
    UDF(含UDAF,UDTF)
    支持weka
    支持mahout
    支持vowpal_wabbit接入
(建模)數據探索需求
    支持Python集成
    支持R集成
    R&Python 擴展庫
        keras
        sk learn
        pandas

調度

生產級的支持,對週期性調度的需求是與生俱來的。同時,由於oozie等常用開源調度引擎都是基於一張DAG對應一個調度作業的模式,而每次更改(比如加入新的數據處理節點)都需要重啓作業,同時過大的DAG維護難度也更高,所以需要考慮通過某種機制打破這種侷限,實現“圖間依賴”調度。【TODO】

支持的作業類型
    hive
    spark
    jar
    shell
    python
    R
調度週期
    時,日,周,月
重跑
    可重跑補數據
系統變量與自定義變量
    bizdate
     ${coord:formatTime(coord:dateOffset(coord:dateTzOffset(coord:nominalTime(), "Asia/Shanghai"), -1, 'DAY'), 'yyyyMMdd')}
圖間依賴
    降級實現:check機制

安全

安全性生產級平臺的重要考慮,而金融行業更是如此。

統一、多賬戶
    各服務統一賬戶體系
    身份打通
權限管理
    多服務統一權限管理
    權限管理粒度至少是表級,最好能到行/列 級
數據加密
    支持基於KMS的表級數據加密
    透明加解密
    KMS完全可控

開發-生產管理模式

開發測試環境與投產
    開發-測試試跑-提交發布-發佈投產
多人協作開發

界面

hive
    hue
工作流/任務調度
    hue-oozie
數據探索
    Python
        jupyter
    R
        RStudio(多用戶)
開發調試
    Yarn 日誌可查

監控

任務錯誤監控、報警
作業超時監控、報警
系統運行日報
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章