原创 network定製頂點顏色

import networkx as nx import matplotlib.pyplot as plt #添加頂點和邊 plt.figure(figsize=(10, 10)) G_test = nx.Graph(); G_test

原创 sparkDF與pandasDF相互轉化並將sparkDF存入hive

import pandas as pd from pyspark.sql import SparkSession spark= SparkSession\ .builder \

原创 用戶留存率問題計算詳解

數據分析工作中經常會遇到計算用戶留存的相關問題,例如我們現在遇到這樣一個場景, 某APP, 它的新增用戶的次日留存、7日留存、30日留存爲60%、30%、15%, 請模擬出來,每天如果日新增5萬用戶,那麼30天后,它的日活數會達到多少?

原创 SQL中如何統計員工最大連續打卡天數

針對員工最大連續打卡天數等類似問題SQL求解,思路如下, 示例數據如下, id date success 1 2020/4/2 1 1 2020/4/3 1 1 2020/4/4 1 1 2020/4/5 0 1 2020/4/6 1 1

原创 利用python獲取身份證號中年齡和性別信息

import datetime class GetInformation(object): def __init__(self,id): self.id = id self.birth_ye

原创 Python隨機數

這裏只涉及random庫。 import random 1、隨機生成 0 到 1 之間的浮點數,random.random() 方法會返回 [0.0, 1.0) 之間的浮點數。 random.random() 0.7317782097

原创 利用python繪製KS曲線

在金融領域中,我們的y值和預測得到的違約概率剛好是兩個分佈未知的兩個分佈。好的信用風控模型一般從準確性、穩定性和可解釋性來評估模型。一般來說。好人樣本的分佈同壞人樣本的分佈應該是有很大不同的,KS正好是有效性指標中的區分能力指標:KS用於

原创 PSI指標

公式: psi = sum((實際佔比-預期佔比)* ln(實際佔比/預期佔比)) 舉個例子解釋下,比如訓練一個logistic迴歸模型,預測時候會有個類概率輸出,p。在你的測試數據集上的輸出設定爲p1,將它從小到大排序後將數據集10等分

原创 利用Python計算KS

在金融領域中,我們的y值和預測得到的違約概率剛好是兩個分佈未知的兩個分佈。好的信用風控模型一般從準確性、穩定性和可解釋性來評估模型。一般來說。好人樣本的分佈同壞人樣本的分佈應該是有很大不同的,KS正好是有效性指標中的區分能力指標:KS用於

原创 利用python 計算百分位數實現數據分箱

對於百分位數,相信大家都比較熟悉,以下解釋源引自百度百科。 百分位數,如果將一組數據從小到大排序,並計算相應的累計百分位,則某一百分位所對應數據的值就稱爲這一百分位的百分位數。可表示爲:一組n個觀測值按數值大小排列。如,處於p%位置的值稱

原创 Gini和AUC的關係(Gini=2AUC-1真的成立嗎?)

在做信用評分卡研究時,除了用KS/AUC指標,還經常見到基尼係數(gini coefficient)。 gini係數通常被用來判斷收入分配公平程度。   圖.洛倫茨曲線與基尼係數  Gini coefficient 是指絕對公平線(li

原创 關於模型檢驗的ROC值和KS值的異同_ROC曲線和KS值

問題:ROC曲線是累計壞佔比曲線(圖中藍色曲線)下面的面積(>0.5),KS值是累計壞佔比曲線-累計好佔比曲線差值(圖中紅色曲線)的最大值。實際上他們都是一樣的?   解答: ROC(Receiver Operating Charact

原创 利用Python實現數據透視表和交叉表

1、透視表 pivot table   pd.pivot_table(data,values=None,index=None,columns=None,aggfunc='mean' ,fill_value=None,margins=Fa

原创 將excel批量轉爲csv文檔

  import pandas as pd import os #查找符合文件類型的文件 def file_name(file_dir,source_type): L=[] for root, dirs,

原创 利用python 獲取當前文件夾下所有文件名

這裏通過os下的兩個函數實現,os.walk()和os.listdir()。 import os def file_name(file_dir): for root, dirs, files in os.walk