機器學習算法原理系列篇1:金融風控中的機器學習

持續更新的微信訂閱號,更多的內容請關注訂閱:

在這裏插入圖片描述

我們將採用倒敘的手法來講訴機器寫學習原理和應用這個故事。
首先我們簡單描述一個機器學習常用的領域:金融風控。

  1. 金融風控流程與重點

互聯網金融公司,其風控流程因爲業務不同而各有所不同。而業務類型,如果按照借款用途來劃分,有消費貸款,企業貸款,供應鏈貸款,融資租賃等。 也可以按照擔保類型,則可以分爲一般信用類,消費場景類,車輛抵押類,房產抵押類,第三方擔保類等。業務類型也可存在線上和線下的區別。線下業務主要以線下門店業務員展開業務,而線上業務者基本上所有步驟通過互聯網爲載體而發生。金融風控流程按照大的流程又主要分爲貸前審批和貸後管理。貸前風控主要關心客戶是否滿足借貸的資格,而貸後管理更多關注貸後催收等工作。

以典型的線上信用貸款涉及到的貸前風控流程爲例,下圖所示爲風控流程的幾個主要模塊。

在這裏插入圖片描述

上圖所示幾個模塊包含的主要功能分別爲:
客戶申請:客戶通過網頁或者App填寫資料,從把客戶的相關信息傳至後臺。這個階段採集的資料一方面是爲了獲得客戶的基本屬性,比如姓名,身份證,手機號,家庭住址,共工作地址,職業,教育程度,收入等重要信息,從而爲後面的風控階段做好準備。另一方面,一些簡單和直接的反欺詐被前置,比如通過人臉識別,判斷照片和身份證匹配程度,判斷照片和公安部數據庫匹配程度,判讀申請人是否是真實的申請人活體而不是靜態的照片或者視頻錄製信息。
業務准入:爲了達到簡化步驟和減小風控成本的目的,可以在客戶錄入信息的同時,根據前端動態的得到的信息,提前客戶是否滿足貸款業務的基本要求。比如年齡是否過大,是否爲在校學生,是否具有穩定工作等。一旦不滿足業務的基本要求,可以提前中斷客戶的申請過程。
反欺詐:客戶收集到的數據被傳入後臺以後,首先需要判斷客戶是否具有欺詐的嫌疑。這類判斷既包括專家規則,也包含模型預測,比如:姓名,身份證,手機號是否匹配,家庭地址或者工作地址是否覈驗成功,過往多頭借貸次數是否太多,是否和黑產中介或者高危客戶的社交關係過於緊密等。
信用評估:通過反欺詐審覈的客戶進入信用評估階段。信用評估用到的維度可能涉及客戶基本資料(比如性別,年齡,收入,教育程度), 社交類數據(騰訊,支付寶),通話行爲數據,網絡瀏覽行爲數據,多頭借貸歷史數據,歷史逾期記錄,消費支持數據等。
客戶審批:根據上述步驟的評分或者規則結果做出審批決策,批准或者拒絕貸款客戶。
信用政策(客戶定價):對於批准的客戶,針對不同的業務類型,具體的貸款金額可以對於所有用戶一致,也可以根據用戶的信用評分給與不同的貸款金額。

從風控建模的角度,我們闡述幾個重要的觀點。

1.1 反欺詐與信用評估、

信用風險和欺詐風險的區別關鍵在於客戶一開始的還款意願。信用風險指的是客戶借款時候本來的目的是願意還款的,但是因爲後期缺乏還款能力或者個人守信習慣而導致的逾期。欺詐風險指的是客戶一開始就沒有打算還款的主觀目的。反欺詐在分類上又可以分爲第一反欺詐和第三反欺詐。第一反欺詐指的是,申請者利用自己的信息申請貸款從而達到騙貸的目的。第三反欺詐指的是,冒充他人信息申請貸款從而達到騙貸的目的。

預防欺詐風險主要防範虛假申請信息,惡意騙貸歷史用戶,黑產中介機構,大量多頭借貸,以及互聯網社交風險。預防信用風險,主要查看個人借貸歷史,是否按時償還,是否有嚴重逾期情況等。但是在國內個人徵信歷史比較缺乏的現實環境中,尤其是網貸羣體,欺詐風險和信用風險往往交織在一起,不能簡單的區別開來。

1.2 客戶營銷和風控管理

獲客渠道和獲客方式的不同,對應的風險管理也應該有所不同。這是因爲不同的客戶羣體對應的潛在風險也是不一樣的。營銷和風控在某種程度上是在對立的兩面的。從營銷角度來說,永遠是越多潛在的客戶申請對業務可能越有利,尤其考慮到獲客成本的問題,是每一次拒絕客戶都是必然的損失。從風控的角度而言,是希望風險控制越嚴越好,這樣逾期率纔可能降低。

但是風控並非越嚴越好,除了考慮通過率過低導致的營銷成本增加,另外的原因是風控流程會改變客戶羣體的組成,從而改變逾期的風險。這是所謂的逆向選擇風險。比如,爲了防止欺詐風險,在申請流程上增加一些繁瑣的密碼驗證和生物識別方法,會是好客戶流失到其他操作更簡單的申請平臺,但是壞客戶因爲自身的申請條件反而原因承擔額外的流程。這樣的結果是,初期營銷的客戶羣體和後面進入審覈階段的客戶羣體好壞比相差非常大,而且是壞客戶的比例極大提高,爲風控埋下隱患。

風控管理也必須意識到,對於總體的業務而言,風控並不是最終的目的,如何面對正確的客戶羣體營銷,合理的設置申請流程,提高客戶羣體的好壞比才是根本目的。業務最終是爲盈利,在提高客戶總量的同時兼顧合理的風控纔是正確的方法,而不是反其道而行之。

那麼沒有提前預計到的客戶羣體好壞比的改變對於風控管理的危害體現在什麼地方呢?這裏我們舉一個例子。美國著名的金融科技公司Capital One 早期獲客渠道是通過有針對性給與篩選的客戶發送信件。通過精準的客戶羣體營銷以及傑出的量化分析方法,Capital One 業務增長強勁並且逾期率很低。隨着第一波互聯網的興起,Capital One 也開始嘗試互聯網獲客,但是最終的結果卻非常糟糕,逾期率從之前的個位數變爲兩位數。究其原因,同樣的風控算法被直接運用到非常不一樣的客戶羣體,導致了Capital One的第一次互聯網業務以失敗而告終。

1.3 建模中的拒絕推斷

建立新模型或者優化已有的模型都需要使用業務積累的客戶數據。但是業務的流程決定了這些數據只是前期審覈通過的客戶數據。這些客戶中,有的表現爲好樣本,有的表現爲壞樣本。依據已有客戶的好壞標籤,才能建立量化模型,從而尋找客戶好壞和客戶特徵直接的關聯關係。 這個流程如下圖所示:

在這裏插入圖片描述

上圖所示的在審覈階段通過的和被拒絕的客戶羣體其好壞分佈理論上是不一致的,或者說審覈通過的客戶好壞分佈和所有進件客戶也會不一樣。如果他們的分佈一致,那麼就說明審覈機制沒有起到真正的作用,其效果和扔色子一樣。原則上來說,被拒絕客戶羣體中壞客戶所佔比例應該遠大於被審覈通過客戶羣體中的壞客戶比例。 但是這樣就會導致一個問題,即新建的模型基於的數據分佈和審覈階段面對的所有客戶羣體分佈是不一致的。一旦新模型被部署到審覈階段,可以預料到會產生一定的偏差。對於不同的業務,這樣的偏差可能很大也能很小。但是作爲風控管理的重要一環,我們必須對這個固有的偏差有所瞭解。下圖展示了基於全樣本數據和只用審覈通過數據建立的兩個不同模型在逾期率預測上的可能出現的區別。可以看出相比全樣本建立的無偏差模型,審覈通過數據模型在高風險端有很大程度的低估。而對於高風險的低估,對任何業務的收益都會有嚴重的影響。

在這裏插入圖片描述

是否需要考慮這種偏差對業務的影響,我們可以首先通過逆推法來驗證。在獲得新模型以後,假如新的模型偏差較小,那麼新模型對之前拒絕的樣本的風險預測也應該比較合理。即拒絕樣本的風險值應該比所有樣本平均值高一定的閾值,比如三倍。如果達不到這一水平,說明只用申請通過樣本做出的樣本沒有達到我們的預期效果。

爲了消除因拒絕樣本丟失而引起的固有偏差,我們可以通過幾種拒絕推斷(reject inference)的辦法。至少有以下三種不同的拒絕推斷策略:
A/B測試: 在成本允許的情況下,在客戶審覈階段,按照一定的比例,隨機的挑選一部分客戶。這些被挑中的客戶,不經過任何風控審覈直接發放貸款。其貸後表現是沒有任何偏差的樣本數據。可以纔看出來,這些客戶的逾期率一定比通過風控審覈的客戶高,從而帶來一定的成本。但是得到的無偏差數據可以有效的爲後期建模提供便利。
購買拒絕客戶在其他平臺上的表現: 挑選一部分之前被拒絕的客戶,爲了獲得這部分人的風控表現,可以用第三方數據對這部分人重新進行風控審覈,可以得到是否有過逾期的行爲。 一旦有了這些客戶在其他平臺的貸後表現,可以有效補充建模的準確些。
統計方法: 通過一些數學和統計手段,對拒絕客戶數據進行處理,減小誤差。常用的方法有實驗法,分包/賦值法,和擴張法等。

下面我們介紹通過統計手段進行拒絕推斷的具體方法。

1.3.1 分包或者賦值法(Parceling)

假設審覈通過的客戶樣本數據爲A, 審覈拒絕的客戶樣本數據爲B。 通過數據A和A中的好壞標籤, 我們得到模型model A。 爲了合理的處理B中的數據,以便在model A中能夠被使用,從而減小偏差,有下面兩種不同方案:
(1) 對於B中的每一個樣本x
(2) 產生一個隨機數r
(3) 用model A 得到x爲好客戶(y=1)的概率p
(4) 如果 p 大等於 r, 把x標記爲好客戶,否則標記爲壞客戶。
通過上訴步驟,對B中的每一個數據得到標籤以後, 把B和A數據合併,重新建模得到最終的模型。
第二種方案:
(1) 對於B中的每一個樣本x
(2)用model A, 預測x 分別爲 y=0 和 y=1 的概率 p0 和 p1,並且p0+p1 = 1
(3)把x 按照 p0的權重放入新的數據集 B‘,並且標籤爲y=0
(4) 把x 按照 p1 的權重放入新的數據集 B‘, 並且標籤爲y=1
上訴步驟完成以後,把B’ 和 A 數據合併,重新建模得到最終的模型。

上面兩種方案,第一種顯然隨機性更高,兩種方案可以都嘗試下確定哪個效果更優。

1.3.2 擴張法(Augmentation/Reweighting)

同樣假設審覈通過的客戶樣本數據爲A, 審覈拒絕的客戶樣本數據爲B。 通過數據A和A中的好壞標籤, 我們得到模型model A。另一個合理的假設是,如果運用model A來預測好壞概率,對於A和B中的客戶,如果model A預測的概率相近,我們相信他們有相似的風險特徵。基於這樣的假設,擴張法的具體步驟爲:
(1) 用model A對A和B中的所有數據進行預測,得到每個客戶爲好客戶的概率
(2) 把A和B中的所有數據按照概率分段,比如概率在0到0.1之間的客戶作爲第一段,以此類推。
(3) 對於每一段中的數據設置權不同的權重因子,但是同一段中的數據具有相同的權重,權重w = 該段中審覈通過加上審覈拒絕的客戶總數/該段中審覈通過客戶的數量。
(4) 將A和B中所有數據按照所處概率端權重因子加權以後,重新建模,得到最終的模型。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章