風控-評分卡之woe轉換

WOE（Weight of Evidence）即證據權重，可以將logistic迴歸模型轉化爲標準評分卡格式，WOE是對原始自變量的一種編碼形式，要對一個變量進行WOE編碼，需要首先把這個變量進行分組處理（也叫離散化、分箱）。
WOE的公式就是：WOE=ln(好客戶佔比/壞客戶佔比)×100%=優勢比
下面舉例說明：

woe計算

我們把這個變量離散化爲了4個分段：<100元，[100,200)，[200,500)，>=500元，並分別計算了每組的woe值，重計算數據可知：

當前分組中，響應的比例越大，WOE值越大
當前分組WOE的正負，由當前分組響應和未響應的比例，與樣本整體響應和未響應的比例的大小關係決定，當前分組的比例小於樣本整體比例時，WOE爲負，當前分組的比例大於整體比例時，WOE爲正，當前分組的比例和整體比例相等時，WOE爲0。

爲什麼做woe轉換

首先明確woe轉換並不一定能顯著提高模型質量，建立評分卡也可以不採用woe，這種情況下logistic迴歸需要處理更大數量的自變量，儘管這樣會增加建模的複雜性，但最終得到的評分卡都是一樣的。即便如此，woe轉換依舊有很多的優勢：

woe能反映自變量的貢獻情況
自變量內部WOE值的變異（波動）情況，結合模型擬合出的係數，構造出各個自變量的貢獻率及相對重要性。一般地，係數越大，woe的方差越大，則自變量的貢獻率越大。
標準化功能
WOE編碼之後，自變量其實具備了某種標準化的性質，也就是說，自變量內部的各個取值之間都可以直接進行比較（WOE之間的比較），而不同自變量之間的各種取值也可以通過WOE進行直接的比較。
對異常值不敏感
很多極值變量通過WOE可以變爲非異常值，很多頻次較少的變量也可以通過woe轉換進行合併。

通過woe轉化，極大的提高了數據的可理解性，這對評分卡模型很重要。WOE其實描述了變量當前這個分組，對判斷個體是否會響應（或者說屬於哪個類）所起到影響方向和大小，當WOE爲正時，變量當前取值對判斷個體是否會響應起到的正向的影響，當WOE爲負時，起到了負向影響。而WOE值的大小，則是這個影響的大小的體現。

作者：數據小黑升值記
鏈接：https://www.jianshu.com/p/fd8b0bef8ea5
來源：簡書
著作權歸作者所有。商業轉載請聯繫作者獲得授權，非商業轉載請註明出處。

維尼彈着肖邦的夜曲

發佈了178 篇原創文章 · 獲贊 147 · 訪問量 100萬+

他的留言板關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

風控-評分卡之woe轉換

爲什麼做woe轉換

c 正則

加權交叉熵損失函數：tf.nn.weighted_cross_entropy_with_logits

個性化推薦綜述

Attention 總結

GPT對比GPT-2

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結