原创 Ensemble Learning常見方法總結(Bagging、Boosting、Stacking、Blending)

看到過一個問題:Random Forest、Adaboost、GBDT、XGBoost的區別是什麼?這個問題基本上覆蓋了關於Ensemble Learning中常見的幾種方法,以及Ensemble Learning中各個方法的使用的流行程

原创 Pandas之Categoricals數據類型

Pandas中的Categoricals模塊能夠有效地編碼並顯著性地提高了文本分類的效率。 1、There is More to Speed Than Parallelism(速度比並行更重要) 我通常會寫一些關於並行的東西。因此,很多人

原创 python3與python2中map函數的區別

先看一下python2中的map函數: def map(function, sequence, *sequence_1): # real signature unknown; restored from __doc__ """

原创 我的收藏

機器學習方法 Kaggle-Titanic Xgboost方法整理 模型融合之Stacking Ensemble Learning 各種方法 XGBoost使用 BAT機器學習面試題  特徵工程 如何選取特徵

原创 數據分析——特徵工程之特徵關聯

參考 House Price中的most voted文章 https://www.kaggle.com/pmarcelino/comprehensive-data-exploration-with-python 以House Price數

原创 時間序列分析之AR、MA、ARMA和ARIMA模型

如果一個時間序列經過平穩性檢驗後得到是一個平穩非白噪聲序列,那麼該序列中就蘊含着相關性的信息。在統計學中,通常是建立一個線性模型來擬合該時間序列的趨勢。其中,AR、MA、ARMA以及ARIMA都是較爲常見的模型。1、AR(Auto Reg

原创 python 字符串(str)與列表(list)以及數組(array)之間的轉換方法詳細整理

前提:list以及array是python中經常會用到的數據類型,當需要對list以及array進行文件的讀寫操作的時候,由於write函數參數需要的是一個str,所以這時就需要對list或者array進行str的轉換了。list和arr

原创 解決Python pip install時ConnectTimeoutError

今天在用anaconda3安裝tensorflow時,出現了ConnectTimeoutError的錯誤:原因是pip的源地址是官方網址:pypi.python.org,網絡協議:HTTPS,通過這些國外站點下載時就會特別慢。因而可以通過

原创 國內常見的日內CTA策略介紹以及實現

轉自:https://blog.csdn.net/xmuecor/article/details/78542320 本文將向大家介紹四種常見的CTA策略(Dual Thrust、R-Breaker、菲阿里四價、空中花園),實現各策略並以D

原创 CNN卷積神經網絡結構及參數配置

來源:機器學習算法與自然語言處理作者:白雪峯轉載於:https://blog.csdn.net/np4rHI455vg29y2/article/details/789581211、CNN例子Yann LeCun提出的最基本和開始的CNN結

原创 KL散度、JS散度以及交叉熵對比

在看論文《Detecting Regions of Maximal Divergence for Spatio-Temporal Anomaly Detection》時,文中提到了這三種方法來比較時間序列中不同區域概率分佈的差異。   K

原创 Pandas.plot()畫圖方法

轉自:https://blog.csdn.net/claroja/article/details/73872066?utm_source=debugrun&utm_medium=referral   Series Series.plot(

原创 數據分析——數據清洗之缺失值處理

在將數據進行分析或者跑機器學習算法時,缺失值處理是很重要的一步,下面將通過讀取csv文件來舉例說明。 讀取csv文件時常見的缺失值有如下類型。 空數據 0 NA 其他表示形式,如‘null’ 一、空數據和NA數據以及其他表示空的數據 創建

原创 SAX(Symbolic Aggregate Approximation)一種時間序列的新型符號化方法

Introduction簡言之,SAX算法就是將時間序列進行符號化表示。這個算法最初是由Lin et al.提出的,它擴展了基於PAA的方法並繼承了原始方法的簡單和低複雜度的特點,同時在範圍查詢的過程中提供了令人滿意的靈敏度和可選擇性。除

原创 距離算法彙總

轉載自:https://blog.csdn.net/mousever/article/details/459676431. 歐氏距離,最常見的兩點之間或多點之間的距離表示法,又稱之爲歐幾里得度量,它定義於歐