原创 CTR預估中GBDT與LR融合方案

原文:https://blog.csdn.net/lilyth_lilyth/article/details/48032119 1、 背景       CTR預估(Click-Through Rate Prediction)是互聯網計算廣

原创 Kaggle案例之泰坦尼克船員倖存預測

無意間在網易雲課堂上找了一個Kaggle案例,泰坦尼克獲救船員預測,在此之前我是從沒接觸過kaggle,畢竟是剛入門的小白,看着視頻,算是真正實戰了一次,主要是在這個過程中學到了很多東西。  下面視頻地址 http://study.163

原创 pandas的iloc、loc、ix的使用(列切片及行切片)

loc:通過選取行(列)標籤索引數據  iloc:通過選取行(列)位置編號索引數據  ix:既可以通過行(列)標籤索引數據,也可以通過行(列)位置編號索引數據 df是一個dataframe,列名爲A B C D 具體值如下: A

原创 解決jupyter中matplotlib中文亂碼問題

第一步:系統中文字體查看 [hadoop@p168 ~]$ fc-list :lang=zh /System/Library/Fonts/STHeiti Medium.ttc: 黑體\-簡,黑體\-簡,Heiti SC,黒體\-簡,Hei

原创 使用sklearn優雅地進行數據挖掘

目錄 1 使用sklearn進行數據挖掘   1.1 數據挖掘的步驟   1.2 數據初貌   1.3 關鍵技術 2 並行處理   2.1 整體並行處理   2.2 部分並行處理 3 流水線處理 4 自動化調參 5 持久化 6 回顧 7

原创 用sklearn做特徵工程

目錄 1 特徵工程是什麼? 2 數據預處理   2.1 無量綱化     2.1.1 標準化     2.1.2 區間縮放法     2.1.3 標準化與歸一化的區別   2.2 對定量特徵二值化   2.3 對定性特徵啞編碼   2.4

原创 如何理解主元分析(PCA)?

主元分析也就是PCA,主要用於數據降維。 1 什麼是降維? 比如說有如下的房價數據:     這種一維數據可以直接放在實數軸上:     不過數據還需要處理下,假設房價樣本用  表示,那麼均值爲:     然後以均值  爲原點:  

原创 數學基礎

線性代數  https://www.matongxue.com/courses/1/ 微積分  https://www.matongxue.com/courses/2/   馬同學高等數學 如何理解主元分析(PCA)? https://w

原创 如何理解主元分析(PCA)?

原文 https://mp.weixin.qq.com/s/oqnb8yv0bJ__OLpcBSvtVg 主元分析也就是PCA,主要用於數據降維。1 什麼是降維? 比如說有如下的房價數據:     這種一維數據可以直接放在實數軸上:  

原创 聯合概率分佈

原文 https://blog.csdn.net/tiankong_/article/details/78332666 1.什麼是聯合概率分佈?   聯合概率分佈簡稱聯合分佈,是兩個及以上隨機變量組成的隨機向量的概率分佈。根據隨機變量的不

原创 機器學習中概率論知識複習

概率論文基本知識 https://blog.csdn.net/u012566895/article/details/51220127

原创 獨立同分布

       在概率統計理論中,如果變量序列或者其他隨機變量有相同的概率分佈,並且互相獨立,那麼這些隨機變量是獨立同分布。(independent and identically distributed )   隨機變量X1和X2獨立,是

原创 模型融合—— stacking詳細講解

stacking的過程有一張圖非常經典,如下:   雖然他很直觀,但是沒有語言描述確實很難搞懂。 上半部分是用一個基礎模型進行5折交叉驗證,如:用XGBoost作爲基礎模型Model1,5折交叉驗證就是先拿出四折作爲training d

原创 xgboost相比傳統gbdt有何不同?xgboost爲什麼快?如何支持並行?

傳統GBDT以CART作爲基分類器,xgboost還支持線性分類器,這個時候xgboost相當於帶L1和L2正則化項的邏輯斯蒂迴歸(分類問題)或者線性迴歸(迴歸問題)。傳統GBDT在優化時只用到一階導數信息,xgboost則對代價函數進行

原创 二叉樹的性質

二叉樹:樹中每個節點至多有兩個子節點二叉搜索樹:對於樹中任何節點,如果其左子節點不爲空,那麼該節點的value值永遠 >= 其左子節點;如果其右子節點不爲空,那麼該節點的value值永遠 <= 其右子節點(左子節點<value<右子節點)