台部落coffeetea01

【任務一隨機森林算法梳理】集成學習概念集成學習簡單理解就是指採用多個分類器對數據集進行預測，從而提高整體分類器的泛化能力。換個角度考慮，訓練完成之後就可以看成是單獨的一個”假設”（或模型），只是該”假設”不一定是在原”假設

2019-03-04 02:47:49

【Task2 GBDT算法梳理】一、簡介： GBDT有很多簡稱，有GBT（Gradient Boosting Tree）, GTB（Gradient Tree Boosting ）， GBRT（Gradient Boosting Reg

2019-03-04 02:47:49

1. 下載數據，讀取數據，觀察數據 2. 將訓練集拆分爲訓練集和驗證集。要求：數據3-7分，隨機種子2019 分享自己對數據以及賽題的理解和發現（建立模型通過長文本數據正文(article)，預測文本對應的類別(class) ）

2019-03-04 02:47:49

1、什麼是決策樹；（decision tree）決策樹是一種樹型結構，其中：每個內部的結點表示在一個屬性的測試；每個分支代表一個測試的輸出；每個葉節點代表一種類別；決策樹是以實例爲基礎的歸納學習，採取的是自頂向下的

2018-08-29 03:40:58

最怕每天碌碌無爲，只想每天多點痕跡。1、對pandas 的dataframe 進行處理的時候，不採用for循環，可以直接採用 df.apply(func) 提高效率。如 df.apply(lamdba x: x<0)2、對連續變量的離散

2018-08-29 03:40:58

0、由決策樹和隨機森林的關係的思考隨機森林的決策樹分別採樣建立，相對獨立。思考：1、假定當前一定得到了m-1棵決策樹，是否可以通過現有的樣本和決策樹信息，對第m棵決策樹的建立產生有益的影響？2、各個決策樹組成的隨機森林後，最後的投票過程可

2018-08-29 03:40:58

設定路徑的時候，可以用 // 和 \ 比如data=pd.read_csv('D:\\data.csv') 和 data=pd.read_csv('D:/data.csv') 在Windows環境上，兩種方式都能用，但是上了

2018-08-29 03:40:58

通過paramiko庫來實現，基本代碼如下 host_ip='***' #不需要帶端口 username='***' password='***' remote_path='***' local_path='***' def rem

2018-08-29 03:40:57

系統爲Ubuntu 16.04.3 步驟如下： 1、下載壓縮包： sudo wget http://download.redis.io/releases/redis-3.2.6.tar.gz 2、解壓： sudo

2018-08-29 03:40:57

Kafka集羣是基於多數投票原理的消息中間件，至少有三個服務器以上。使用Python，以生產者身份向kafka推送數據，基本代碼如下： from pykafka import KafkaClient list_kaf

2018-08-29 03:40:57

最近遇到結巴分詞文本，耗時比較久，於是想到多進程來提升數據處理的效率。基礎代碼如下： import os import multiprocessing # worker function def w

2018-08-29 03:40:57

今天主要是對原來的代碼增加新的統計模塊，而且嘗試做Kmeans+KNN 的結合。 1、Kmeans 模型能對訓練集樣本進行聚類，並且生成對應的標籤數據。 KNN對訓練集的樣本和標籤進行fit ，然後對測試集進行predict類

2018-08-29 03:40:57

python平臺下實現xgboost算法及輸出的解釋 https://www.cnblogs.com/harekizgel/p/7683803.html

2018-08-29 03:40:57

主要參照博文： http://blog.csdn.net/xizero00/article/details/73008330 一、windows下的使用別人編譯好的庫文件進行安裝（簡單）（0）前提是，你得下載好anaconda，

2018-08-29 03:40:57