企業風險預測開發覆盤總結

企業風險預測開發覆盤總結

一、背景介紹

在企業信用領域,每個企業每天都在發生着改變,這些改變有可能使得企業越來越好,也有可能使得企業面臨各種風險。面對企業的百萬級運營數據,從中分析出企業的風險信息對企業運營的決策和投資者都是比較好的參考。

爲了給客戶提供一個比較精確企業風險信息,我們可以根據企業的歷史數據和後面的表現情況,結合數據挖掘的理論知識,採用樹模型分類算法模型來預測企業發生風險概率。

二、簡介

結合實際,我們主要圍繞兩方面工作,第一是數據準備工作,主要是因子體系的梳理和加工,第二是實現評分卡模型。

三、需求說明

3.1數據方面

企業口徑:正常企業和發生風險的企業

企業數據:參考企查查,主要有企業的工商、法務、輿情、關聯企業、企業法人、企業股東、企業年報等方面數據。

3.2 環境方面

1.數據庫
2.Python3.7

3.3 時間方面

初版定於x月完成。

四、實施方案

4.1梳理因子體系

時間窗口,先進行數據分析,初步想法是按照關鍵業務數據爲基礎分析,再根據分析結果確定時間窗口。

因子體系,在已有的企業數據基礎上,整理和添加與企風險有關的因子。

4.2 數據加工

根據因子體系加工數據,主要是在數據庫裏面加工,確定數據表的規範和具體內容。

4.3 實現數據挖掘

主要有讀取數據、數據處理、特徵選擇、訓練模型、測試模型及評估調整模型幾個重要步驟,下面簡單介紹下這些步驟裏面的一些重要細節。

4.3.1讀取數據

通過Python連接數據庫,直接把加工好的模型數據讀進Python中,同時注意數據類型和格式是否正確。

4.3.2數據處理

區分數據類型,將離散型和連續型數據分開。

缺失值和異常值處理,以替換爲主,刪除爲輔。

離散化主要以有監督的離散化方法爲主。

4.3.3特徵選擇

計算變量的woe值和iv值,根據iv值選擇特徵。

數據轉換,用woe值替換掉離散化後的數據。

計算相關性和多重共線性,並根據計算結果篩選出入模的特徵。

4.3.4 訓練模型

訓練模型,將最後選擇特徵進入算法訓練。

4.3.5 測試模型

測試模型,把測試樣本根據訓練參數預測結果後和實際情況進行對比。

4.3.6 評估和調整模型

評估模型,根據訓練的算法參數和測試的結果,挑選和計算出模型的F1指標。

調整模型,視評估效果決定是否調整模型。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章