WOE(證據權重)爲何這樣計算？

原創

小石头發發發

2020-02-20 21:26

更多大數據分析、建模等內容請關注公衆號《bigdatamodeling》

By 小石頭

1、概念回顧

先簡單回顧一下WOE的含義。假設x是類別變量或分箱處理過的連續變量，含R個類別或分段，取值爲{C1, ..., Cr, ..., CR}；y是目標變量，取值爲0(Good)或1(Bad)。x和y的頻數表如下：

WOE的定義如下：

變量x第r類的WOE爲：

WOE是變量x第r類中Bad與Good的比率與整個樣本中Bad與Good的比率的比值的對數，其衡量第r類對Bad和Good的比率的影響程度。WOE等於0，表示該類別中Bad與Good的比率與整體樣本中Bad與Good的比率相等，說明該類別完全沒有區分度；WOE大於0，表示該類別中Bad與Good的比率大於整體樣本中Bad與Good的比率；WOE小於0，表示該類別中Bad與Good的比率小於整體樣本中Bad與Good的比率。

2、理論推導

那麼，WOE爲何這樣計算？從上面的WOE定義可以發現，WOE編碼是有監督方法，所以計算變量x的WOE可以看做用x擬合y的優化過程。將x的WOE寫成，其中是二元虛擬變量，如果變量x取第r類，則，否則。

(1)定義如下模型：

(2)定義對數損失函數：

(3)整體樣本上的損失爲：

(4) 損失最小化，即令偏導=0:

因此，WOE是使損失最小化的編碼方式，計算WOE就是一次單變量建模過程，得到的WOE值使損失最小，即信息損失最小。實際上，常數b的不同取值會產生不同的WOE編碼值，但不影響WOE編碼的效果。而令，會使WOE的含義更容易解釋和理解。

另外，通過前述的推導可以看出，使用經過WOE編碼後的單變量擬合邏輯迴歸模型將得到變量係數爲1，截距項爲b。

小石頭發發發

發佈了10 篇原創文章 · 獲贊 13 · 訪問量 2萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

樂龍仿真軟件下載

ralc物流仿真軟件是一款三維動畫物流系統仿真快速建模與分析軟件。它能夠運用三維動畫系統的仿真模塊對物流的倉儲配送流程系統進行全方面的仿真規劃設計、分析驗證，並且還能夠通過物流設備和控制系統對作業的人員、作業的機器以及業務信息數據進行系統

2020-07-08 04:55:13

《大象：Thinking in UML》讀書筆記（2）建模基礎

目錄1 建模2 用例驅動3 抽象層次4 視圖5 對象分析方法 1 建模建模（Modeling），是指通過對客觀事物建立一種抽象的方法用以表徵事物並獲得對事物本身的理解，同時把這種理解概念化，將這些邏輯概念組織起來，構成一種對所觀

2020-07-06 15:39:19

算法的總體介紹

首先聲明，本文非原創，網上看到的，如果原創者看到了請告訴我，讓我膜拜一下，如果覺得引用不合適，請告訴我，我會刪除它！爲了找出地球上最高的山，一羣有志的兔子們開始想辦法。 (1)兔子朝着比現在高的地方跳去。他們找到了不遠處的最高

2020-07-06 01:50:16

廊道建模

重點： 1 - 對齊 2 - 輔助剖面

2020-07-03 04:10:38

2020年美賽E題

谷歌機器翻譯 2020 ICM週末1 問題E：淹死在塑料中自1950年代以來，由於其用途廣泛，例如食品包裝，消費品，醫療設備和建築業，塑料製造業呈指數增長。儘管有很大的好處，但與增加塑料生產相關的負面影響值得關注。塑料產品不易分

2020-06-30 03:49:03

金融時間序列分析: 10. ARMA模型實例（R，Python）

0. 目錄金融時間序列分析：9. ARMA自迴歸移動平均模型金融時間序列分析：8. MA模型實例（Python）金融時間序列分析：7. MA滑動平均模型金融時間序列分析：6. AR模型實例金融時間序列分析：5.

2020-06-29 18:13:09

圖論問題建模討論彙總

圖論問題建模討論彙總一、騎士巡遊 Knight's Tour 在8x8的國際象棋盤上某一位置上放置一個棋子馬（亦稱騎士），然後採用國際象棋中“馬走日字”的規則前進，要求經過棋盤上每個小格子一次且僅一次。其中騎士一步可以移動的位

2020-06-28 17:12:00

如何畫用例圖

http://www.cnblogs.com/ywqu/archive/2009/12/03/1616232.html

2020-06-28 03:07:50

Gambit建模中split的用法

在Gambit建模中會遇到一些凹槽等結構，需要兩個規則結構進行split的，但是利用Split時，到底哪部分切割哪部分呢？剩餘部分是否保存呢？在這裏，用例子來解釋上面的問題。 Volume選擇的是主體Volume1（或者面），Spl

2020-06-25 21:51:39

Hive建模類型

推薦大家去看原文博主的文章，條理清晰閱讀方便，轉載是爲了方便以後個人查閱 https://www.cnblogs.com/xupccc/p/9544575.html 1、介紹 Hive作爲數據倉庫，同關係型數據庫開發過程類似，都需要先進行

2020-06-25 06:03:36

深度學習----Tensorflow再命名實體上常用的函數

函數作用 tf.contrib.crf.crf_log_likelihood() ~~~~~~~~ 在一個條件隨機場裏面計算標籤序列的log-likelihood，函數的目的是使用cr

2020-06-24 12:39:20

兩種python調試方法

文章目錄1、PDB2、PySnooper 參考：https://mp.weixin.qq.com/s/ziUIyYPpAjq-g_CgQ_kFcQ 1、PDB pdb是Python中的一個內置模塊，啓用pdb後可以對代碼進行斷點設

2020-06-24 12:39:20

UML基礎篇

摘自網上一些文章。 1.UML——統一建模語言(Unified Modeling Language),UML的目標之一就是爲開發團隊提供標準通用的設計語言，以便更有效地開發和構建計算機應用。對象建模技術是進行面向對象分析和設計的基礎

2020-06-23 23:19:09

建模進度1

簡單記錄下這周的進度人設想着在突出兩個角色地差異的同時能夠保留一定的共同點，比如說鋒利和柔軟的對比效果。構成上使用4階明暗，把純度往人物地面部收攏，然後選取了兩組對比色來表現人物。並沒有考慮均衡、節奏之類的設計要素。由於沒有收

2020-06-23 21:18:49

數倉中的全量表，增量表，拉鍊表，流水錶，快照表

預熱：我們先從幾個物理概念入手理解什麼是流量，存量，增量（1）存量：系統在某一時點時的所保有的數量；（2）流量：是指在某一段時間內流入/出系統的數量（3）增量：則是指在某一段時間內系統中保有數量的變化（4）增量=流入量--流出量

2020-06-23 10:54:40

24小時熱門文章

最新文章

WOE(證據權重)爲何這樣計算？

最新評論文章