乾貨！百度面試機器學習，除了泰坦尼克，還有銀行貸款？

原創

菜鳥學python

2020-12-01 23:29

在大家的生活中，貸款是不能避開的話題。而銀行在向個人提供貸款時，需要對這個人進行一個全面的評估，防止這個人還不上貸款，從而成爲壞賬。所以利用機器學習來評估一個人是否能夠取得貸款，是一個非常熱門的話題。

今天，小編就帶領大家實現一個完整的機器學習的項目。來預測一個人究竟能否獲得銀行的貸款。

我們今天用到的庫包含了sklearn、matplotlib、numpy、pandas、seaborn、scipy等庫，從機器學習到數據分析到數據可視化的展示，可謂是乾貨滿滿。

01 數據初探
首先我們讀入數據，並對數據進行一個初步的認知：

可以看到，數據一共包含了12個特徵維度，分別有數據的ID(Loan_ID)，性別(Gender)，是否結婚(Married)等信息，而Loan_Status表示的是label，代表該用戶是否貸到款。我們將數據中Credit_History特徵由數值型轉換爲標稱型，並刪除掉Loan_ID這一列。來看一下貸到款和沒貸到款的比例。

可以看出，貸到款的人數佔到總人數的69%。在對整體數據有一個整體的把握之後，接下來我們來對每個特徵的重要性進行分析。

02 特徵分析

首先我們先從標稱型數據開始分析。如下圖所示：

上圖中，橫座標是每個標稱型的數據類型，縱座標是我們的Label，也即Loan_Status。從上述的數據分佈可以得到下面很多的信息:

左上角中Gender和Loan_Status的關係，可以看出，無論是男性還是女性，大部分的人都得到了貸款。
性別在是否提供貸款的判定中並不是特別重要的特徵信息。
在右上角的Married和Loan_Status的關係，可以看出大多數結婚的人都得到了貸款
如果一個人結婚了，那麼他有很大的概率得到貸款。所以Married對於Loan_Status是一個好的特徵，對於其他的標稱型類型同樣可以採用這樣的方法進行分析。

接下來我們來看一下數值型的特徵

可以看出，當CoapplicantInocme的中位數較低時，Loan_Status 爲N，所以 CoapplicantInocme是一個很好的特徵信息。

03 數據清洗

對特徵進行分析後，接下來就是數據的清洗，包括了缺失值的處理，對於標稱型的數據，我們將其按照衆數來填充，而對於數值型的數據，採用平均值來填充(也可以採用缺失值的上一個值來填充)，然後將標籤進行one_hot來編碼，最終處理後的數據如下所示。

04 模型訓練與測試

對於數據進行清洗後，接下來就是模型的訓練，對於二分類問題，採用logistic迴歸、KNN、SVM(SVC)和決策樹四種模型來訓練，並通過準確率，召回率，F1準確率，分類準確率分數五個評價指標來評價模型

對於模型的訓練，採用了兩種方法，第一種是直接將數據集分爲訓練集和測試集，其中對於訓練集和測試集，其label中的Y和N的比例同數據集中的label比例相同。然後再訓練集上訓練模型，在測試集上測試模型。下圖展示的是模型在訓練集上訓練後在測試集上測試的結果。

從評價指標和上圖展示可以得出，目前最好的模型是logistic模型，而SVC模型相當於只是存儲了數據，並沒有對數據進行任何的判斷分類，呈現過擬合的狀態。

對於模型訓練的第二種方法是採用K折交叉驗證的訓練方法，該方法是將原數據有放回的採樣N次，每次將原數據分爲訓練集和測試集，然後進行模型的訓練和測試。然後平均N次的評價結果來對模型進行評估。

從上圖右側的結果可以看出，此時的SVC同樣是呈現過擬合的狀態，而K折交叉驗證下，決策樹的結果要好於logistic迴歸，在測試集上的準確率達到了80.86%，得到訓練好的模型後，我們就可以利用該模型來預測個人的數據，來預測他能否得到銀行的貸款。

最後，我們來展示一下K折交叉驗證的細節：

上圖可以看到，針對logistic迴歸模型，K折交叉驗證每次都重新劃分訓練集和測試集，來訓練模型，在測試集上進行測試。然後將每次訓練後的評價指標結果進行保存。最終將K次(這裏是10次)的訓練結果進行平均，就得到了每個評價指標的平均結果。

以上就是小編帶領大家進行的一個簡單的機器學習項目練習，在這個基礎上，大家還可以繼續優化，比如說進行特徵的組合選擇，來優化特徵，同時可以針對模型的參數進行調整來提升模型的性能。

希望本篇對大家面試AI算法崗位，有幫助，歡迎在留言區點評，記得給個三連哦！

目前wx搜索Python 【菜鳥學Python】排第二，匯聚了30萬Python愛好者，累計原創近400篇趣味乾貨(爬蟲，數據分析，算法，面試指南，原創趣味實戰，Python遊戲，機器學習），歡迎一起學Python，交流指正。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

乾貨！百度面試機器學習，除了泰坦尼克，還有銀行貸款？

用Python實現一個簡單的|猜猜我像那個明星

奧運首金，來自清華21歲的楊倩爲啥這麼牛！用Python分析一波！

Python神器！不用動手操作，自動給微信羣發文件！

斬獲貓眼9.5分，《中國醫生》展現大國的醫生擔當!

牆裂推薦！10個非常有趣的Python庫！

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結