互聯網金融風控模型大全

一、市場調研
目前市面主流的風控模型
1、互聯網金融前10名排行榜(數據截止日期2017-09-12)
互聯網金融公司排名分別是螞蟻金服、陸金所、京東金融、蘇寧金融、百度金融、騰訊理財通、宜信、錢大掌櫃、萬達金融和網易理財。
1.1 螞蟻金服
1.1.1 大數據技術

對接第三方徵信公司芝麻信用分，通過用戶信用歷史、行爲偏好、履約能力、身份特質、人脈關係五個維度對海量數據行綜合的處理評估，同時也給予阿里電商交易和螞蟻金服互聯網金融交易數據，對接公安系統和第三方數據公司建立聯繫。(這塊就是用戶畫像的作用，投資人畫像，融資企業/個人畫像，這塊的內容比較複雜。後面一定會展開分析，風險定價，推薦系統全部靠它了)
1.1.2 人臉識別技術

人臉識別技術核心算法分別是活體檢測算法、圖像脫敏算法以及人臉比對算法，國際公開人臉數據庫 LFW 上，人臉識別算法準確率(99%)。(像這塊的技術已經很成熟有百度都已經推出成型產品，可以通過人臉識別對融資企業/法人進行風險驗證，是否存在風險欺詐，多頭借貸等嫌疑)
1.1.3 雲計算技術
是一個開放的雲平臺，它助力金融創新、助力金融機構的IT架構實現升級，去構建更加穩健安全、低成本、敏捷創新的金融級應用。(其實就高可用，可靠性等)
1.1.4 風控技術
歷史交易數據進行個性化的驗證，提高賬戶安全性。80%左右的風險事件在智能風控環節就能解決。除了事後審覈，事前預防、事中監控也非常重要——事前,將賬戶的風險分級，不同賬戶對應不同風險等級；事中，對新上線的產品進行風險評審以及監控策略方案評審。(解決80%的問題因此這塊纔是真正的核心。貸前，貸中，貸後等方方面面的監控，貸前最爲重要，如何去檢測，抓取哪些數據，與哪些第三方平臺合作)
1.1.5 人工智能技術
螞蟻金服通過大數據挖掘和語義分析技術來實現問題的自動判斷和預測。可以識別到用戶的身份信息,總結在大的用戶層面大家可能都會遇到的問題，100%的自動語音識別。智能質檢能力與智能賠付能力，具備了品質的判斷能力以及情感判斷能力。(總結:公司 PC 的人工語言不完善，很多關鍵字無法識別。這塊應該跟後臺沒有交互，數據都是寫死。移動端也可以考慮在標的詳情頁介入 draglayout 控件進行智能語音服務，解答用戶疑惑。技術核心應該是在數據挖掘，語義分析技術等方式)
1.2 陸金所風控調研
1.2.1 七步風控體系

1、風險政策制度框架體系：所有交易對手和產品引入都制定了明晰的風險政策指引，所有業務必須在制度框架內運行。(說白了就是自己風控業務流程，對於投資人者以及融資用戶進行風險等級劃分)
2、信用評級：交易對手和產品進行主體評級及債項評級。(對於投資人者、融資用戶、產品進行風險等級劃分)
3、信息披露：針對每一個不同的產品，將其內部評級、底層資產、主要風險、還款來源、保障措施。(就目前風險披露數據只是按照國家要求進行風險披露，但是並沒有標地產品進行風險披露，融資企業進行風險披露，這個披露系統可以做成風險評估報告，後期也可以利用企業供應鏈關係庫一定會用到(但是這部分數據都是針對上市而言，數據不全；))
4、投後預警監控：所有在售資產至少每三個月進行一次檢視。(對於融資週期過長的企業可以每三個月進行企業經營狀況的上報，重點在於資金用途，回款方式以及週期；如果我們企業夠強大的話，可以利用大數據徵信對於那些未按時回款融資企業用戶的企業進入黑名單系統)
5、風險管理系統：陸金所的風險管理系統覆蓋全產品線、整個產品生命週期，實現風控的標準化、智能化、模型化，大幅提升陸金所風險管理工作的效率和效果。(這些東西都太虛了)
6、風險評價體系：同的風險程度給予業務部門不同的業績評價。
7、資產、資金的精準匹配：投資者進行風險分類，產品與投資者風險適配系統，確保投資者都能買到適合其投資風格與風險偏好的產品。(個人認爲這個纔是風控的意義，還有我們平臺本身存在的價值；具體的實現的方式，利用畫像技術對於投資用戶，融資用戶，標的產品進行風險等級劃分，通過數據挖掘進行實時推薦)
小結

風險評級分爲三部分：投資人風險等級分類，融資企業信息等級分類，標的產品等級劃分。

投資人等級劃分：可以參考以往投資標的的利率，投資金額，投資人的站崗資金，投資人的提現金額，也可以通過投資人基本個人信息，例如移動設備Android 或 IOS，年齡，居住地，職業，評判投資人也可以調用第三方平臺去綜合判斷投資的經濟狀況等方面維度

融資企業等級劃分：企業所在行業的整體現狀，國家政策是否扶持，企業的納稅證明，銀行流水，公司規模，註冊資本等維度

標的產品：項目所屬行業，項目的整體週期，項目成本，利潤率，項目的合作企業，項目合同，發票等內容等維度
投資用戶與產品匹配度
根據風險評級系統去高度匹配融資用戶，產品標的的內容信息。這部分用到的應該是數據挖掘，推薦系統。根據用戶以往投資標的金額，利率進行離線推薦，也可以根據用戶的點擊流日誌分析去進行實時推薦，在某個標的詳情頁的停留時間，標的的點擊次數信息。
1.3 京東金融風控調研
1.3.1 用戶支付瞬間需要做的事情

如判斷用戶的設備信息、登錄行爲、訪問特徵、信用狀況、商品信息、商家特徵、配送區域、銀行卡狀態等。如建立信用、反欺詐、僞冒交易等一系列模型，其中多達近百項的模型需實時計算。這樣龐大的運算量在一秒內，甚至幾十毫秒內完成，不是易事。 (感覺這些內容任何一點都夠我研究一段時間的)
1.3.2 風控的靈魂是數據，所有決策都以數據爲驅動

1、業務系統產生的數據和點擊流作爲主要挖掘的素材來源；但是隨着時間推移，惡意用戶可以模仿真實用戶。因此纔會用設備指紋識別，生物探針，語音識別，人臉識別等。

2、風控模型

原始層數據：由於原始數據存在雜亂無章的現象，此處使用各種顏色來示意

數據原子化：數據原子化是經過整理後，把數據按業務歸屬分類，形成最原子的類別，比如賬戶，資金，投資，消費等

數據抽象層：按風控關注的業務做數據整合，這層是最貼近業務的。每一塊代表一類業務，一個原子數據類是可以被放入多個抽象數據塊裏的

數據模型層：對分析場景使用的，基本就是一個數據模型塊對應一個分析場景。

3、機器學習在京東金融的天盾風控系統應用

根據經驗，在算法的選擇上儘可能的多做選擇，對比模型的性能擇優選取。另外，對樣本庫做好治理工作，可使用隨機抽樣和使用聚類把樣本數據分層抽取。這些工作是建模人員在大數據環境中也就是離線做的，那麼，怎麼把訓練的模型應用到線上做實時呢，下圖是架構：

京東金融目前正在開發機器學習平臺，讓懂機器學習的人就可以使用機器學習做想的事情，當前懂機器學習的人不在少數，但真正使用機器學習做具體事情不多，故此平臺不但滿足內部建模訓練、發佈等，還可對外輸出。
數據風控還有很長的路要走，如量化投資風險評估與運營也屬風控範疇，風控也可和推薦領域相結合。如數據會有階段性差異，質量會隨時間推移，慢慢發生變化，可能花費很大精力產出的預測產品會失效，調整代價難易不可估。如不同場景準確度和覆蓋度都是不同的，尺度如何把握。如怎樣能降低統計分析學和分佈式計算相結合的成本等等。
總之，互聯網金融風控核心還是服務客戶，提升產品價值，最大程度的做到差異化的防範，智能化是風控的發展方向，京東金融從開始就致力於打造智能化的風險管控解決方案。(機器學習部分了解)

2、第三方風控產品以及服務(數據截止日期2018-01-12)
20強榜單分爲三個梯隊，三個梯隊覆蓋的放貸機構數量依次遞減，大致比例爲10:3:1。

第一梯隊（5家）：放貸類公司使用最集中的徵信機構，分別是上海資信、同盾科技、芝麻信用、鵬元徵信和百融金服。

第二梯隊（8家）：FICO、聚信立、致誠信用、EXPERIAN、安融徵信、考拉徵信、前海徵信、維氏盾徵信。

第三梯隊（7家）：GEO集奧聚合、白騎士、華道徵信、立木徵信、算話徵信、銀聯智策、正信用。

前海徵信可以獲取到個人用戶的公積金信息。芝麻信用目前是最優秀的徵信公司，當中很多公司有自己渠道去獲取用戶的信息。

3、國家政策法規
1、個人單平臺借貸餘額不能過20萬
2、個人全部平臺借貸餘額不能過100萬
3、企業法人單平臺借貸不能過100萬
4、企業全平臺不能過500萬

從政策層面上來p2p服務的是屬於中小企業，p2p行業不利。因此風控顯的更加尤爲重要。通過風控模型獲取優質的資產。

二、風控模型
風控模型應該是從兩個角度去考慮，第一個角度是資產端風控策略，第二個角度是資金端風控策略。考慮主要出發點應該是從貸前、袋中、貸後三個方向去考慮，結合傳統業務的風控模型和互聯用戶的行爲數據。針對資金，資產進行風險等級劃分，防欺詐系統、袋中的輿情監控、貸後的權重疊加。

1.1 欺詐用戶的識別
1.1.1、防欺詐風控系統，下面我列舉的參考維度指標；針對黑色產業業務梳理
根據現有數據統計分析移動端登錄用戶佔比與 PC 用戶佔比爲8：2劃分，因此移動的防欺詐系統爲主要參考因數，
1、根據以往的業務系統數據可以建立黑名單、白名單。
白名單: 可以通過建立數據模型已經數據挖掘，機器學習相關算法進行優質用戶的挖掘。
黑名單: 黑名單企業可以針對那些逾期、破產企業(法人作爲黑名單)、通過手機號碼、imei作爲用戶判斷標識，調用第三放徵信公司去進行鑑別。
2、對移動端用戶進行實時監測，獲取用經緯作爲、獲取用戶重力感應數據、mac 地址、ip、移動設備註冊時長等數據判斷用戶是否存在惡意欺詐，惡意註冊
1.2 可信度分析
1.2.1、風險等級劃分
風險等級劃分，分爲三種類型、投入用戶風險承受能力等級劃分、融資企業以及個人用戶的等級劃分、融資項目標的等級劃分
1、投資用戶等級劃分：可以參考投資年齡、居住地、職業、銀行流水、固定資產、收入、學歷等角度去劃分
2、融資企業等級劃分：企業所在行業、國家政策、企業現金流、企業註冊資本、管理層背景、資產負債率、法人個人信息、企業納稅證明、公司人員數量等維度去
3、標的信息：標的項目類型、回款週期、合作企業、回款方式、融資金額
1.3 貸後預警
對於回款週期比較長的項目，可以至少三個做個回訪、讓融資企業按時提供目前經營現狀、融資標的是否按時回款。根據貸後的狀態進行預警、等級劃分
四、技術實現
用戶畫像、人臉識別、推薦系統、智能語音、數據挖掘、風控模型。
風控系統業務流程

訪用戶欺詐系統

風險評估等級劃分系統

用戶畫像

用戶點擊流日誌分析系統

推薦系統

風險預警系統

風險定價系統

五、產品與服務
參考科法智能提供的服務與產品，將案例信息換位標的信息、將訴訟公司換位融資企業。對照數據就可以解決提供類似的服務。下面是具體相關部分信息。

企業信用信息查詢

包括企業基本信息、經營狀態、法人以及高管信息披露
對於一些重要信息提供收費服務、本平臺高等級投資用戶可以免費查看，比如企業的目前經驗狀況、本平臺內部信用等級、所在行業排名等。
企業融資項目標的信息查詢
結合本平臺以往類似融資項目信息歷史數據進行信息關聯、結構歸類、風險解讀、精準檢索。出具融資項目風險測評報告
對於優質資產本平臺進行充分的信息披露

科法智能邏輯思維導圖

互聯網金融風控模型大全

lgbm和xgboost實現代碼

行人檢測_目標檢測/識別_人臉識別數據集下載地址

行人檢測數據庫（包含9個常見數據庫）

經典損失函數：交叉熵（附tensorflow）

計算機會議排名等級

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結