基於大數據風控方向的大數據計算平臺需求整理

原創

2020-06-19 21:27

基於大數據風控方向的大數據計算平臺需求整理

背景

爲響應國家深化金融體制改革的要求，各大金融機構都在探索服務下沉，包括信託行業在內，很多金融機構都在嘗試消費金融各種場景。而信託行業在進軍消費金融的路上面臨的挑戰會更多一些——信託行業近年來和房地產和基建等行業關係更加緊密一些，相比銀行等行業，直接服務用戶的經驗和能力，基礎數據和基礎設施等都比較薄弱甚至欠缺。
本人在支持消費金融業務的過程中，就風控需求做了一些整體的設計和實施。在過程中，就大數據相關的需求做了如下的規劃。

需求分解

數據存儲

除了支持HDFS存儲，還需要打通OSS——考慮到日誌採集方案。
參考使用Hive進行OSS數據處理的一個最佳實踐，需要如下的feature：

CREATE EXTERNAL TABLE logoss (logcontent string) partitioned by (year string, month string, day string) stored AS textfile location 'oss://akid:[email protected]/path';

ETL

從數據源的角度來說，需要支持：

關係型
    mysql
    oracle
    pgsql
非關係型
    ftp/http
    mongodb
    redis
    hbase
流式
    kafka
    MQ

從工具的角度，需要支持：

sqoop
flume
datax

計算引擎

爲了支持特徵工程的生產任務，需要支持批量計算與流式計算的常用計算引擎/模式，並需要支持UDF，MR等擴展能力。
除此之外，爲了支持後續採購聯合建模服務，需要支持較多數據探索和模型訓練等方面的需求，故也需要綜合考慮python、R等集成，以及mahout、keras等；

批量計算
    Hive
    Impala
    Spark
流式計算
    Spark Stream
    flink
擴展定製
    UDF（含UDAF，UDTF）
    支持weka
    支持mahout
    支持vowpal_wabbit接入
（建模）數據探索需求
    支持Python集成
    支持R集成
    R&Python 擴展庫
        keras
        sk learn
        pandas

調度

生產級的支持，對週期性調度的需求是與生俱來的。同時，由於oozie等常用開源調度引擎都是基於一張DAG對應一個調度作業的模式，而每次更改（比如加入新的數據處理節點）都需要重啓作業，同時過大的DAG維護難度也更高，所以需要考慮通過某種機制打破這種侷限，實現“圖間依賴”調度。【TODO】

支持的作業類型
    hive
    spark
    jar
    shell
    python
    R
調度週期
    時，日，周，月
重跑
    可重跑補數據
系統變量與自定義變量
    bizdate
     ${coord:formatTime(coord:dateOffset(coord:dateTzOffset(coord:nominalTime(), "Asia/Shanghai"), -1, 'DAY'), 'yyyyMMdd')}
圖間依賴
    降級實現：check機制

安全

安全性生產級平臺的重要考慮，而金融行業更是如此。

統一、多賬戶
    各服務統一賬戶體系
    身份打通
權限管理
    多服務統一權限管理
    權限管理粒度至少是表級，最好能到行/列 級
數據加密
    支持基於KMS的表級數據加密
    透明加解密
    KMS完全可控

開發-生產管理模式

開發測試環境與投產
    開發-測試試跑-提交發布-發佈投產
多人協作開發

界面

hive
    hue
工作流/任務調度
    hue-oozie
數據探索
    Python
        jupyter
    R
        RStudio（多用戶）
開發調試
    Yarn 日誌可查

監控

任務錯誤監控、報警
作業超時監控、報警
系統運行日報

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

基於大數據風控方向的大數據計算平臺需求整理

基於大數據風控方向的大數據計算平臺需求整理

背景

需求分解

數據存儲

ETL

計算引擎

調度

安全

開發-生產管理模式

界面

監控

Shell/Python中的用戶名獲取

外包開發模式下gitlab與OpenProject聯動的開發過程管理

【視頻直播場景下P2P對等網技術①】挑戰與形式化分析

【視頻直播場景下P2P對等網技術②】任意兩節點的聯通性能評估

信託公司消金小額貸款項目的現金流預測

人才盤點與項目-人員編排

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結