原创 python pd 數據集抽樣

原文鏈接:https://m.jb51.net/article/166501.htm (轉載:https://m.jb51.net/article/166501.htm) 摘要:有時候我

原创 常用數據處理功能

#2019-2-2 #常見功能整理 dt <- data.table(mtcars) #返回dt的最後一條記錄 dt[.N]#----------============== #根據cyl分組,返回每個分組的記錄數 dt[, li

原创 搭建流失預警模型

搭建流失預警模型 2018年10月12日 14:43 如何支持用戶運營,搭建流失預警模型 2018-06-09 19:16微博/微信 有一個比喻非常恰當:產品如同蓄水池,用戶好比池中之水。池子中每時每刻都有新用戶源源不斷地加入,也有一部分

原创 python3:文件讀寫+with open as語句

python3:文件讀寫+with open as語句 轉載請表明出處:https://www.cnblogs.com/shapeL/p/9141238.html 前提:文中例子介紹test.json內容: hello 我們 3263

原创 記住邏輯關係

邏輯術語 and:與 or:或 not:非 !=:不等於 == :等於 >= :大於等於 <= :小於等於 True:真 False:假 真值表 not 真假 not False True not True False   or 真假 T

原创 data.table X[Y] 與 merge

首先舉一個例子 library(data.table) X <- data.table(t = 1:4, a = (1:4)^2) setkey(X, t) X # t a # 1: 1 1 # 2: 2 4 # 3:

原创 習題24 格式化字符串

輸出格式化字符串的兩種方法: print(f"we have {beans} beans") print("we have {} beans".format(beans)) #習題24 print("Let's practice

原创 跡象權數WOE、信息值IV、kS值、GINI係數

WOE和IV使用來衡量變量的預測能力,值越大,表示此變量的預測能力越強。 WOE=ln(累計正樣本佔比/累計壞樣本佔比0) IV=(累計正樣本佔比-累計壞樣本佔比)*WOE 信息值(IV) 預測能力 <0.03 無預測能力 0.03~0.

原创 格式化字符串

輸出格式化字符串的兩種方式: print(f"we have {beans} beans") print("we have {} beans".format(beans))   #習題24 print("Let's practice ev

原创 python快捷鍵

鍵盤快捷鍵——節省時間且更有生產力! 快捷方式是 Jupyter Notebooks 最大的優勢之一。當你想運行任意代碼塊時,只需要按 Ctrl+Enter 就行了。Jupyter Notebooks 提供了很多鍵盤快捷鍵,可以幫助我們節

原创 累計覈准率與累計違約率

分組數 戶數 累計戶數 違約戶數 違約率 累計違約戶數 累計覈准率 累計違約率       20 20 10 10/20 10 20/100 10/20       30 50 5 5/30 15 50/100 15/50      

原创 GINI係數的計算

簡便易用的公式:假定一定數量的人口按收入由低到高順序排隊,分爲人數相等的n組,從第1組到第i組人口累計收入佔全部人口總收入的比重爲wi,則說明:該公式是利用定積分的定義將對洛倫茨曲線的積分(面積B)分成n個等高梯形的面積之和得到的。 三

原创 模型穩定性指標—PSI

由於模型是以特定時期的樣本所開發的,此模型是否適用於開發樣本之外的族羣,必須經過穩定性測試才能得知。穩定度指標(population stability index ,PSI)可衡量測試樣本及模型開發樣本評分的的分佈差異,爲最常見的模型穩

原创 Key(主鍵)和基於子集的快速檢索

主鍵 什麼是主鍵   在前面我們討論瞭如何用“i”進行提取子集的方法,這節我們採用另一種方法,用主鍵(key)來提取子集。 開始,我們先看一個data.frame,每個data.frame都有一個行名稱,先看下面一個data.frame

原创 經常問的問題

1.關於樣本集的複製   > DT <- data.table(a=c(1,2), b=c(11,12)) > DT2<-DT   #用<-複製數據 集,新數據集改變後,原數據集會跟着一起改變 > DT2[,new3:=3L] > DT2