[機器學習] 模型穩定度指標PSI

羣體穩定性指標(population stability index)

 

由於模型是以特定時期的樣本所開發的,此模型是否適用於開發樣本之外的族羣,必須經過穩定性測試才能得知。穩定度指標(population stability index ,PSI)可衡量測試樣本及模型開發樣本評分的的分佈差異,爲最常見的模型穩定度評估指針。其實PSI表示的就是按分數分檔後,針對不同樣本,或者不同時間的樣本,population分佈是否有變化,就是看各個分數區間內人數佔總人數的佔比是否有顯著變化。通常用作模型效果監測。一般認爲PSI小於0.1時候模型穩定性很高,0.1-0.2一般,需要進一步研究,大於0.2模型穩定性差,建議修復。

公式如下:

這裏的AC與EX爲不同時間段的模型輸出分數,如果PSI過大,說明模型輸出的分數分佈變化很大了,需要更新模型。 

 

PSI實際應用範例:

1)樣本外測試

  針對不同的樣本測試一下模型穩定度,比如訓練集與測試集,也能看出模型的訓練情況,我理解是看出模型的方差情況。

2)時間外測試

  測試基準日與建模基準日相隔越遠,測試樣本的風險特徵和建模樣本的差異可能就越大,因此PSI值通常較高。至此也可以看出模型建的時間太長了,是不是需要重新用新樣本建模了。

 

變量的PSI計算:

PSI:檢驗變量的穩定性,當一個變量的psi值大於0.0001時,變量不穩定。一個變量,將它的取值按照分位數來分組一下,每一組中測試模型的客戶數佔比減去訓練模型中的客戶數佔比再乘以這兩者相除的對數,就是這一組的穩定性係數psi,然後變量的psi係數就是把這個變量的所有組的psi相加總起來。

發佈了173 篇原創文章 · 獲贊 226 · 訪問量 33萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章