原创 隨機森林算法梳理
【任務一 隨機森林算法梳理】 集成學習概念 集成學習簡單理解就是指採用多個分類器對數據集進行預測,從而提高整體分類器的泛化能力。換個角度考慮,訓練完成之後就可以看成是單獨的一個”假設”(或模型),只是該”假設”不一定是在原”假設
原创 Task2 GBDT算法梳理
【Task2 GBDT算法梳理】 一、簡介: GBDT有很多簡稱,有GBT(Gradient Boosting Tree), GTB(Gradient Tree Boosting ), GBRT(Gradient Boosting Reg
原创 Task1
1. 下載數據,讀取數據,觀察數據 2. 將訓練集拆分爲訓練集和驗證集。 要求:數據3-7分,隨機種子2019 分享自己對數據以及賽題的理解和發現 (建立模型通過長文本數據正文(article),預測文本對應的類別(class) )
原创 決策樹系列之決策樹知識點
1、什麼是決策樹;(decision tree)決策樹是一種樹型結構,其中: 每個內部的結點表示在一個屬性的測試; 每個分支代表一個測試的輸出; 每個葉節點代表一種類別;決策樹是以實例爲基礎的歸納學習,採取的是自頂向下的
原创 每日新的總結-20180118
最怕每天碌碌無爲,只想每天多點痕跡。1、對pandas 的dataframe 進行處理的時候,不採用for循環,可以直接採用 df.apply(func) 提高效率。如 df.apply(lamdba x: x<0)2、對連續變量的離散
原创 決策樹系列之提升
0、由決策樹和隨機森林的關係的思考隨機森林的決策樹分別採樣建立,相對獨立。思考:1、假定當前一定得到了m-1棵決策樹,是否可以通過現有的樣本和決策樹信息,對第m棵決策樹的建立產生有益的影響?2、各個決策樹組成的隨機森林後,最後的投票過程可
原创 設定腳本路徑
設定路徑的時候,可以用 // 和 \ 比如data=pd.read_csv('D:\\data.csv') 和 data=pd.read_csv('D:/data.csv') 在Windows環境上,兩種方式都能用,但是上了
原创 python 從遠程服務器中獲取文件到本地
通過paramiko庫來實現,基本代碼如下 host_ip='***' #不需要帶端口 username='***' password='***' remote_path='***' local_path='***' def rem
原创 Ubuntu 安裝Redis的步驟
系統爲Ubuntu 16.04.3 步驟如下: 1、 下載壓縮包: sudo wget http://download.redis.io/releases/redis-3.2.6.tar.gz 2、解壓: sudo
原创 Python 以生產者的身份,訪問Kafka集羣
Kafka集羣是基於多數投票原理的消息中間件,至少有三個服務器以上。 使用Python,以生產者身份向kafka推送數據,基本代碼如下: from pykafka import KafkaClient list_kaf
原创 Python 多CPU並行處理數據
最近遇到結巴分詞文本,耗時比較久,於是想到多進程來提升數據處理的效率。 基礎代碼如下: import os import multiprocessing # worker function def w
原创 小總結 20180119
今天主要是對原來的代碼增加新的統計模塊,而且嘗試做Kmeans+KNN 的結合。 1、Kmeans 模型 能對訓練集樣本進行聚類,並且生成對應的標籤數據。 KNN對訓練集的樣本和標籤進行fit ,然後對測試集進行predict類
原创 xgboost 入門教程
python平臺下實現xgboost算法及輸出的解釋 https://www.cnblogs.com/harekizgel/p/7683803.html
原创 安裝xgboost Windows 64位的步驟
主要參照博文: http://blog.csdn.net/xizero00/article/details/73008330 一、windows下的使用別人編譯好的庫文件進行安裝(簡單) (0)前提是,你得下載好anaconda,