原创 隨機森林算法梳理

【任務一    隨機森林算法梳理】   集成學習概念 集成學習簡單理解就是指採用多個分類器對數據集進行預測,從而提高整體分類器的泛化能力。換個角度考慮,訓練完成之後就可以看成是單獨的一個”假設”(或模型),只是該”假設”不一定是在原”假設

原创 Task2 GBDT算法梳理

【Task2 GBDT算法梳理】 一、簡介: GBDT有很多簡稱,有GBT(Gradient Boosting Tree), GTB(Gradient Tree Boosting ), GBRT(Gradient Boosting Reg

原创 Task1

1. 下載數據,讀取數據,觀察數據 2. 將訓練集拆分爲訓練集和驗證集。 要求:數據3-7分,隨機種子2019 分享自己對數據以及賽題的理解和發現 (建立模型通過長文本數據正文(article),預測文本對應的類別(class) )  

原创 決策樹系列之決策樹知識點

1、什麼是決策樹;(decision tree)決策樹是一種樹型結構,其中:    每個內部的結點表示在一個屬性的測試;    每個分支代表一個測試的輸出;    每個葉節點代表一種類別;決策樹是以實例爲基礎的歸納學習,採取的是自頂向下的

原创 每日新的總結-20180118

最怕每天碌碌無爲,只想每天多點痕跡。1、對pandas 的dataframe  進行處理的時候,不採用for循環,可以直接採用 df.apply(func) 提高效率。如 df.apply(lamdba x: x<0)2、對連續變量的離散

原创 決策樹系列之提升

0、由決策樹和隨機森林的關係的思考隨機森林的決策樹分別採樣建立,相對獨立。思考:1、假定當前一定得到了m-1棵決策樹,是否可以通過現有的樣本和決策樹信息,對第m棵決策樹的建立產生有益的影響?2、各個決策樹組成的隨機森林後,最後的投票過程可

原创 設定腳本路徑

  設定路徑的時候,可以用 // 和 \    比如data=pd.read_csv('D:\\data.csv') 和 data=pd.read_csv('D:/data.csv')   在Windows環境上,兩種方式都能用,但是上了

原创 python 從遠程服務器中獲取文件到本地

通過paramiko庫來實現,基本代碼如下 host_ip='***' #不需要帶端口 username='***'  password='***' remote_path='***' local_path='***' def rem

原创 Ubuntu 安裝Redis的步驟

系統爲Ubuntu 16.04.3 步驟如下: 1、 下載壓縮包: sudo wget http://download.redis.io/releases/redis-3.2.6.tar.gz 2、解壓:       sudo

原创 Python 以生產者的身份,訪問Kafka集羣

  Kafka集羣是基於多數投票原理的消息中間件,至少有三個服務器以上。   使用Python,以生產者身份向kafka推送數據,基本代碼如下:   from pykafka import KafkaClient   list_kaf

原创 Python 多CPU並行處理數據

  最近遇到結巴分詞文本,耗時比較久,於是想到多進程來提升數據處理的效率。   基礎代碼如下:     import os     import multiprocessing    # worker function   def w

原创 小總結 20180119

今天主要是對原來的代碼增加新的統計模塊,而且嘗試做Kmeans+KNN 的結合。 1、Kmeans 模型 能對訓練集樣本進行聚類,並且生成對應的標籤數據。      KNN對訓練集的樣本和標籤進行fit ,然後對測試集進行predict類

原创 xgboost 入門教程

python平臺下實現xgboost算法及輸出的解釋 https://www.cnblogs.com/harekizgel/p/7683803.html

原创 安裝xgboost Windows 64位的步驟

主要參照博文: http://blog.csdn.net/xizero00/article/details/73008330 一、windows下的使用別人編譯好的庫文件進行安裝(簡單) (0)前提是,你得下載好anaconda,