金融風控建模常見誤區與建議

歡迎各位同學學習python信用評分卡建模視頻系列教程(附代碼, 博主錄製) :

騰訊課堂報名入口

網易雲課堂報名入口

(微信二維碼掃一掃)

 

1建模的標籤不是固定的
一般風控數據比賽類似lending club和home credit的數據都是給定了好壞用戶的樣本標籤,然後直接開始特徵工程和模型訓練。但在實際項目中樣本標籤是要結合數據和業務兩個因素權衡去確定下來的:

  1. 從數據角度看,經驗上壞樣本個數要大於1000個以上才能保證建模的學習性能;
  2. 從業務角度看,壞樣本要儘可能的是真實的壞樣本,儘量少的誤殺好用戶。

這兩個因素是相互拉鋸的,想壞樣本多,就要表現期短,誤殺好用戶的機率就大;要想少誤殺好用戶,就要表現期足夠長,能確定的壞樣本自然就少了。所以在確定標籤時要拿數據嘗試,找到這兩個因素的平衡點。

 

2模型不是越複雜越好
很多初學者會覺得深度模型和集成模型效果一定比簡單的線性模型效果好。在一些簡單項目上也要上很複雜的模型,結果線上使用效果往往並不理想,就好比人生了一個小病,一定要各種打針吃藥過度治療。這樣反而對身體造成額外的損傷。
其實在很多相對簡單的項目中 ,並不需要上很複雜的模型,一個簡單的邏輯迴歸就能很好的滿足性能要求,而且健壯性也是非常好的,往往在簡單問題上上了複雜模型很容易造成overfitting,然後降低模型的泛化能力。

3模型審覈十分必要
現在絕大多數金融機構在模型開發上往往是一人獨立承擔一個(甚至多個)模型項目的開發工作,從數據集市的搭建、清洗數據、特徵工程、到建模與調教。這樣雖然可以以企業最低成本進行風控模型賦能,但卻容易發生模型集中度風險。
在模型團隊(更建議模型組外)設立模型審覈小組,從數據、代碼、業務應用場景、建模流程等多方面對模型組開發的模型進行全方位診斷,以此降低模型集中度風險的發生。

這種組織結構在美國Capital one等多家數據驅動型金融機構早已踐行。

 

4.AutoML慎用
AutoML全稱是Automated Machine Learning,是2014年以來,機器學習和深度學習領域最炙手可熱的領域之一。

衆所周知,模型的開發需要大量的人工干預,這些人工干預表現在:特徵構建、特徵演變、特徵提取、模型選擇、參數調節等各個方面。
AutoML視圖將這些與特徵、模型、優化、評價有關的重要步驟進行自動化地學習,使得機器學習模型無需人工干預即可被應用,以此大大降低模型開發的時間成本(全流程人工開發可能需要2-4周的開發作業時間,而應用AutoML可以將模型開發時間壓縮到最短半天)。
一個完整的AutoML過程可以分成這麼兩類:

  • 一類是將以上的三個步驟整合成一個完整的pipeline;
  • 另一類則是network architecture search,能夠自動地學習到最優的網絡結構。在學習的過程中,對特徵工程、模型選擇、算法選擇都進行一些優化。


雖然AutoML有着大大降低模型開發時間成本、提升模型精度等多種優勢,但在特徵構建與演變中,往往會脫離實際業務指導模型的意義,無法在特徵上體現出與風險目標明顯的業務相關性。尤其是模型後段應用類似邏輯迴歸等線性算法時,對於模型穩定性、效力下降時,模型問題溯源成爲難點。
對於AutoML的使用,更建議應用在反欺詐、精準營銷等不需要明示業務與模型的關聯場景上,對於風控場景,可以在子模型的開發上多加應用,或者AutoML+人工干預。完全實現風險模型開發與上線自動化,還爲時尚早。

 

5.特徵不僅要區分度好 在做特徵構造和篩選的時候,往往大家都會把區分度好的特徵都堆進模型,這樣在測試集上的模型性能會非常的好看,但在挑選特徵的時候,除了區分度之外,還有其他的因素也是不能忽略的:
a. 特徵的覆蓋度只有特徵的覆蓋度夠高,能在衆多樣本上發揮作用,才能讓模型的線上的整體性能提升。
b .特徵的穩定性時間是信貸風控的一個重要維度。只有特徵的分佈隨時間的變化不是很大的前提下,歷史學習到的統計信息才能在儘可能長的未來保持相應的區分度性能。
c .特徵的可解釋性風控的對象是人,我們要透過數據去理解人的行爲,所以我們構建的特徵是需要人能夠理解其風險情況的,如果一個特徵的效果很好,但它在風險上的表現和我們常識相違背或無法理解,這樣的特徵是很難去說服業務方採納的。
 

6.不是所有好的特徵都要進模型
在本次建模比賽中,地理位置的信息的區分度非常好,但類似的這些信息一定要使用在模型中嗎?其實並不一定,有些特徵像地理信息其實可以選擇放在模型或者放在策略中。
如果業務已經覆蓋了衆多地區,地區的統計信息具有穩定的統計分佈,那在模型中使用地理位置信息是很有用的,如果業務開展是按地區逐步推廣開的,不同地區的運營方式和產品有差異,那地理信息調整的靈活度很大,那此時考慮放在策略中往往更加的適合。

歡迎學習更多風控建模相關知識《python金融風控評分卡模型和數據分析微專業課》

騰訊課堂報名入口

網易雲課堂報名入口

(微信二維碼掃一掃)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章