關於特徵篩選中的IV值

1 IV的用途

IV的全稱是Information Value,中文意思是信息價值,或者信息量。

我們在用邏輯迴歸、決策樹等模型方法構建分類模型時,經常需要對自變量進行篩選。比如我們有200個候選自變量,通常情況下,不會直接把200個變量直接放到模型中去進行擬合訓練,而是會用一些方法,從這200個自變量中挑選一些出來,放進模型,形成入模變量列表。那麼我們怎麼去挑選入模變量呢?

挑選入模變量過程是個比較複雜的過程,需要考慮的因素很多,比如:變量的預測能力,變量之間的相關性,變量的簡單性(容易生成和使用),變量的強壯性(不容易被繞過),變量在業務上的可解釋性(被挑戰時可以解釋的通)等等。但是,其中最主要和最直接的衡量標準是變量的預測能力。

“變量的預測能力”這個說法很籠統,很主觀,非量化,在篩選變量的時候我們總不能說:“我覺得這個變量預測能力很強,所以他要進入模型”吧?我們需要一些具體的量化指標來衡量每自變量的預測能力,並根據這些量化指標的大小,來確定哪些變量進入模型。IV就是這樣一種指標,他可以用來衡量自變量的預測能力。類似的指標還有信息增益、基尼係數等等。

2 對IV的直觀理解

從直觀邏輯上大體可以這樣理解“用IV去衡量變量預測能力”這件事情:我們假設在一個分類問題中,目標變量的類別有兩類:Y1,Y2。對於一個待預測的個體A,要判斷A屬於Y1還是Y2,我們是需要一定的信息的,假設這個信息總量是I,而這些所需要的信息,就蘊含在所有的自變量C1,C2,C3,……,Cn中,那麼,對於其中的一個變量Ci來說,其蘊含的信息越多,那麼它對於判斷A屬於Y1還是Y2的貢獻就越大,Ci的信息價值就越大,Ci的IV就越大,它就越應該進入到入模變量列表中。

3 IV的計算

前面我們從感性角度和邏輯層面對IV進行了解釋和描述,那麼回到數學層面,對於一個待評估變量,他的IV值究竟如何計算呢?爲了介紹IV的計算方法,我們首先需要認識和理解另一個概念——WOE,因爲IV的計算是以WOE爲基礎的。

3.1 WOE

WOE的全稱是“Weight of Evidence”,即證據權重。WOE是對原始自變量的一種編碼形式。

要對一個變量進行WOE編碼,需要首先把這個變量進行分組處理(也叫離散化、分箱等等,說的都是一個意思)。分組後,對於第i組,WOE的計算公式如下:

WOE (weight of Evidence) 字面意思證據權重,對分箱後的每組進行計算。假設 good 爲好客戶(未 違約),bad 爲壞客戶(違約)。

                                                                

#goodi 表示每組中標籤爲 good 的數量,#goodT 爲 good 的總數量,bad 同理。

3.2 IV

IV (information value) 衡量的是某一個變量的信息量,公式如下:

                                                                 

N 爲分組的組數,IV 可用來表示一個變量的預測能力。

 IV                      預測能力
<0.03 無預測能力
0.03-0.09
0.1-0.29
0.3-0.49
>=0.5 極高且可疑

可根據 IV 值來調整分箱結構並重新計算 WOE 和 IV。但並不完全是 IV 值越大越好,還需要考慮 分組數量合適,並且當 IV 值大於 0.5 時,我們需要對這個特徵打個疑問,因爲它過於太好而顯得不夠 真實。通常我們會選擇 IV 值在 0.1~0.5 這個範圍的特徵。多數時候分箱都需要手動做一些調整。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章