原创 CTR預估中GBDT與LR融合方案
原文:https://blog.csdn.net/lilyth_lilyth/article/details/48032119 1、 背景 CTR預估(Click-Through Rate Prediction)是互聯網計算廣
原创 Kaggle案例之泰坦尼克船員倖存預測
無意間在網易雲課堂上找了一個Kaggle案例,泰坦尼克獲救船員預測,在此之前我是從沒接觸過kaggle,畢竟是剛入門的小白,看着視頻,算是真正實戰了一次,主要是在這個過程中學到了很多東西。 下面視頻地址 http://study.163
原创 pandas的iloc、loc、ix的使用(列切片及行切片)
loc:通過選取行(列)標籤索引數據 iloc:通過選取行(列)位置編號索引數據 ix:既可以通過行(列)標籤索引數據,也可以通過行(列)位置編號索引數據 df是一個dataframe,列名爲A B C D 具體值如下: A
原创 解決jupyter中matplotlib中文亂碼問題
第一步:系統中文字體查看 [hadoop@p168 ~]$ fc-list :lang=zh /System/Library/Fonts/STHeiti Medium.ttc: 黑體\-簡,黑體\-簡,Heiti SC,黒體\-簡,Hei
原创 使用sklearn優雅地進行數據挖掘
目錄 1 使用sklearn進行數據挖掘 1.1 數據挖掘的步驟 1.2 數據初貌 1.3 關鍵技術 2 並行處理 2.1 整體並行處理 2.2 部分並行處理 3 流水線處理 4 自動化調參 5 持久化 6 回顧 7
原创 用sklearn做特徵工程
目錄 1 特徵工程是什麼? 2 數據預處理 2.1 無量綱化 2.1.1 標準化 2.1.2 區間縮放法 2.1.3 標準化與歸一化的區別 2.2 對定量特徵二值化 2.3 對定性特徵啞編碼 2.4
原创 如何理解主元分析(PCA)?
主元分析也就是PCA,主要用於數據降維。 1 什麼是降維? 比如說有如下的房價數據: 這種一維數據可以直接放在實數軸上: 不過數據還需要處理下,假設房價樣本用 表示,那麼均值爲: 然後以均值 爲原點:
原创 數學基礎
線性代數 https://www.matongxue.com/courses/1/ 微積分 https://www.matongxue.com/courses/2/ 馬同學高等數學 如何理解主元分析(PCA)? https://w
原创 如何理解主元分析(PCA)?
原文 https://mp.weixin.qq.com/s/oqnb8yv0bJ__OLpcBSvtVg 主元分析也就是PCA,主要用於數據降維。1 什麼是降維? 比如說有如下的房價數據: 這種一維數據可以直接放在實數軸上:
原创 聯合概率分佈
原文 https://blog.csdn.net/tiankong_/article/details/78332666 1.什麼是聯合概率分佈? 聯合概率分佈簡稱聯合分佈,是兩個及以上隨機變量組成的隨機向量的概率分佈。根據隨機變量的不
原创 機器學習中概率論知識複習
概率論文基本知識 https://blog.csdn.net/u012566895/article/details/51220127
原创 獨立同分布
在概率統計理論中,如果變量序列或者其他隨機變量有相同的概率分佈,並且互相獨立,那麼這些隨機變量是獨立同分布。(independent and identically distributed ) 隨機變量X1和X2獨立,是
原创 模型融合—— stacking詳細講解
stacking的過程有一張圖非常經典,如下: 雖然他很直觀,但是沒有語言描述確實很難搞懂。 上半部分是用一個基礎模型進行5折交叉驗證,如:用XGBoost作爲基礎模型Model1,5折交叉驗證就是先拿出四折作爲training d
原创 xgboost相比傳統gbdt有何不同?xgboost爲什麼快?如何支持並行?
傳統GBDT以CART作爲基分類器,xgboost還支持線性分類器,這個時候xgboost相當於帶L1和L2正則化項的邏輯斯蒂迴歸(分類問題)或者線性迴歸(迴歸問題)。傳統GBDT在優化時只用到一階導數信息,xgboost則對代價函數進行
原创 二叉樹的性質
二叉樹:樹中每個節點至多有兩個子節點二叉搜索樹:對於樹中任何節點,如果其左子節點不爲空,那麼該節點的value值永遠 >= 其左子節點;如果其右子節點不爲空,那麼該節點的value值永遠 <= 其右子節點(左子節點<value<右子節點)