原创 python auc /precision_recall_vs_threshold 曲線繪製

from matplotlib import pyplot as plt %matplotlib inline def plot_precision_recall_vs_threshold (precisions, recalls, t

原创 python 文件讀取 & 變量類型檢查 & 缺失值分析

def read_file(filepath,filename): import os os.chdir(filepath) import pandas as pd data=pd.read_csv(fi

原创 python 繪製ks

from pandas import * import matplotlib.pyplot as plt def PlotKS(preds, labels, n, asc): # preds is score: asc

原创 python 分類任務特徵篩選1

#檢驗一個變量,如果取較多數值的(>=90%),如果較多類和較小類的label分佈差異不明顯,刪除該變量 def Remove_not_obvious(df,col,var_list,label='label'): '''df:

原创 python 特徵篩選

from sklearn.feature_selection import VarianceThreshold,SelectKBest,chi2 from sklearn.datasets import load_iris import

原创 kaggle比賽流程(轉)

kaggle比賽流程(轉) 一、比賽概述 不同比賽有不同的任務,分類、迴歸、推薦、排序等。比賽開始後訓練集和測試集就會開放下載。 比賽通常持續 2 ~ 3 個月,每個隊伍每天可以提交的次數有限,通常爲 5 次。 比賽結束前一週是一個 De

原创 sql(1)

1、保存數據文件至對象 select top 1000 * into temp from _tianyaPWD order by newid()   2、選擇 select * from Student order by sdept,sa

原创 可視化二seaborn

三、強大的seaborn Seaborn是一個在Python中製作有吸引力和信息豐富的統計圖形的庫。它建立在matplotlib之上,並與PyData堆棧緊密集成,包括支持來自scipy和statsmodels的numpy和pandas數

原创 貝葉斯調參-lgb

樸素貝葉斯 機器學習調參工具:Hyperopt Hyperopt提供了一個優化接口,這個接口接受一個評估函數和參數空間,能計算出參數空間內的一個點的損失函數值。用戶還要指定空間內參數的分佈情況。 優化問題的四個部分 貝葉斯優化問題有四個部

原创 svm-基於機器學習技法

這一章節聊聊SVM,網上關於svm的介紹學習材料也有很多,博主在學習了林軒田的機器學習技法的視頻之後,只是想着去自我總結一下,並接下來對svm的調包更加熟悉。 首先我們看一個線性分類的例子: 從上圖三個線性分類的例子中,他們都很好的將不

原创 lightgbm原理和調參參考資料彙總

Lightgbm 總的來說,看完論文Lightgbm提高速度主要就是‘壓縮數據的數量和維度’,降低訓練數據的量,其中goss降低了數據數量,efb降低了數據的維度,基於Histogram的算法加快了掃描數據的速度,基於leaf-wise的

原创 數據預處理

最近,由於每次在kaggle做比賽時,都是主要參考別人的Kernel來做,對整個數據分析的處理過程缺失整體的思路和理解,在這裏藉助Home Credit Default Risk Competition這個比賽對整個過程進行整理,這裏參考

原创 python作業遇到的一些問題

1.np.hstack()Stack arrays in sequence horizontally (column wise).將數據水平方向對接,列的首尾相接a = np.array((1,2,3)) >>> b = np.array

原创 可視化第一部分(簡單的圖形)

EDA之數據的可視化          自己也沒想到可視化拖了這麼久,有些python包真的很強大,但學起來也很複雜,挺有難度的。所以我打算從我們經常遇到的數據框角度出發來做數據的可視化。        一、pandas的可視化 這種操作

原创 python3網絡爬蟲開發第三章基本庫的使用(2)

3.2 requestUrlopen()可以實現簡單的基本請求的發起,但幾個簡單的參數並不足以完成構建一個完整的請求。如果請求中加入headers等信息,可以利用更加強大的request來構建。import urllib.request