風控-評分卡之woe轉換

WOE(Weight of Evidence)即證據權重,可以將logistic迴歸模型轉化爲標準評分卡格式,WOE是對原始自變量的一種編碼形式,要對一個變量進行WOE編碼,需要首先把這個變量進行分組處理(也叫離散化、分箱)。
WOE的公式就是:WOE=ln(好客戶佔比/壞客戶佔比)×100%=優勢比
下面舉例說明:

woe計算


我們把這個變量離散化爲了4個分段:<100元,[100,200),[200,500),>=500元,並分別計算了每組的woe值,重計算數據可知:

 

  • 當前分組中,響應的比例越大,WOE值越大
  • 當前分組WOE的正負,由當前分組響應和未響應的比例,與樣本整體響應和未響應的比例的大小關係決定,當前分組的比例小於樣本整體比例時,WOE爲負,當前分組的比例大於整體比例時,WOE爲正,當前分組的比例和整體比例相等時,WOE爲0。

爲什麼做woe轉換

首先明確woe轉換並不一定能顯著提高模型質量,建立評分卡也可以不採用woe,這種情況下logistic迴歸需要處理更大數量的自變量,儘管這樣會增加建模的複雜性,但最終得到的評分卡都是一樣的。即便如此,woe轉換依舊有很多的優勢:

  1. woe能反映自變量的貢獻情況
    自變量內部WOE值的變異(波動)情況,結合模型擬合出的係數,構造出各個自變量的貢獻率及相對重要性。一般地,係數越大,woe的方差越大,則自變量的貢獻率越大。
  2. 標準化功能
    WOE編碼之後,自變量其實具備了某種標準化的性質,也就是說,自變量內部的各個取值之間都可以直接進行比較(WOE之間的比較),而不同自變量之間的各種取值也可以通過WOE進行直接的比較。
  3. 對異常值不敏感
    很多極值變量通過WOE可以變爲非異常值,很多頻次較少的變量也可以通過woe轉換進行合併。

通過woe轉化,極大的提高了數據的可理解性,這對評分卡模型很重要。WOE其實描述了變量當前這個分組,對判斷個體是否會響應(或者說屬於哪個類)所起到影響方向和大小,當WOE爲正時,變量當前取值對判斷個體是否會響應起到的正向的影響,當WOE爲負時,起到了負向影響。而WOE值的大小,則是這個影響的大小的體現。



作者:數據小黑升值記
鏈接:https://www.jianshu.com/p/fd8b0bef8ea5
來源:簡書
著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。

發佈了178 篇原創文章 · 獲贊 147 · 訪問量 100萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章