【應用】信用評分卡:分類問題

筆者邀請您,先思考:

1 什麼是有監督學習?

2 如何解決分類問題?

3 信用評分卡和分類問題的關係?

統計與數據挖掘中的分類問題

我必須說,當三歲以上的女孩Amishi宣佈,她只是與我妻子的朋友而不是我交往時,我感到震驚。 分手的原因是我是男孩,女孩只能是女孩的朋友。 她從幼兒園的朋友那裏學到了這種社會規範。 我還記得她幾個月前在她的泳裝和雨傘中爲我塑造的方式。 她甚至意識到男孩女孩的差異,現在只是她學會了這個奇怪的社會規範。 這裏的要點是,幼兒可以毫不費力地區分性別。 大自然爲我們提供了一個內置的方程式,通過高度的精確性來進行性別分類。 想象一下類似的機制來區分好的和壞的借款人。 你在談論每個銀行家的夢想。

正如我在前面的文章中提到的,記分卡在統計和數據挖掘的分類問題上有其根源。 大多數分類問題的想法是創建一個數學方程來區分二元變量。 這些變量只能採用兩個值,例如

  • 男性/女性
  • 好壞
  • 是/否
  • 上帝/魔鬼
  • 快樂/悲傷
  • 銷售/無銷售

名單可以繼續直到永恆。 大多數商業問題試圖模擬二分法的原因是它很容易理解我們人類。 我們必須認識到,二分法絕不是絕對的,並且對它們有着程度。 例如,我80%好,20%差 - 至少我想相信這一點。 我將保持帕累託的80-20原則遠離這一點,即我的20%不好對我80%的行爲負責。

信用記分卡開發 - 問題陳述和抽樣

在信用記分卡的情況下,問題陳述是在好的和壞的借款人之間進行分析。因此,第一個任務是定義一個好的和不好的借款人。對於大多數貸款產品,信用良好和不良以下列方式定義

  • 1.良好的貸款:不錯過EMI支付
  • 2.不良貸款:連續3次錯過EMI(即90天過期)

此外,爲了標記好人或壞人,你需要在很長一段時間內觀察他或她的行爲。根據貸款期限的不同,這個時間長度因產品而異。對於房屋貸款,期限爲20年,2 - 3年是合理的觀察期。 但是,對於上述定義沒有什麼神聖不可侵犯的,可以由分析師自行決定修改。Roll-rate analysis和vintage analysis是您在構建上述定義時可能需要考慮的兩個分析工具。

信用評分卡抽樣策略

幾年前,我爲孟買的一家大型德國航運和貨運公司舉辦了爲期一天的統計推斷研討會。在問答環節時,運營副總裁提出了一個棘手的問題,即獲得良好精度的樣本量是多少?他正在尋找一個通用的答案,我希望這很簡單。樣本量取決於相關人羣的相似性或同質性程度。例如,你認爲如何回答以下兩個問題是一個很好的樣本量?

1.什麼是太平洋的鹽度? 2.宇宙中有另一個智慧生命的星球嗎?

就人口規模而言,宇宙中海洋和行星的數量下降是相似的。由于海洋的鹽度相當穩定,幾滴水足以回答第一個問題。另一方面,第二個問題是黑天鵝問題。你可能需要訪問每一顆行星來統治我們的智能生命形式的可能性。

對於信用評分卡的開發,樣本量的可接受經驗法則是至少1000條好的和不良貸款的記錄。沒有理由不能建立樣本量較小的記分卡(比如500條記錄)。然而,分析師需要小心謹慎,因爲在小數據樣本中隨機性程度越來越高。此外,建議保持樣本窗口儘可能短,即在計分卡開發時保持一個或兩個財政季度。此外,樣品分爲兩部分 - 通常70%用於開發,剩餘用於驗證樣品。我們將在本系列的後續章節中詳細討論開發和驗證示例。

注意

在下一篇文章中,我們將討論信用評分卡的變量分類和粗分類的一個重要主題。 下回見。

上一篇:信用評分卡:簡介 下一篇:信用評分卡:變量選擇

作者:Roopam Upadhyay 原文鏈接: http://ucanalytics.com/blogs/credit-scorecards-classification-problem-part-2/

版權聲明:作者保留權利,嚴禁修改,轉載請註明原文鏈接。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章