原创 特徵工程——特徵交叉、交叉特徵、特徵組合

特徵工程——特徵交叉、交叉特徵、特徵組合 關於特徵交叉的作用以及原理,我這裏不進行詳細描述,因爲大佬們已經說得很清楚了,這裏就附上幾個連接: 特徵組合&特徵交叉 (Feature Crosses) 結合sklearn進行特徵工程

原创 數據挖掘——時間序列算法之MA模型

數據挖掘——時間序列算法之MA模型 1、平滑法 2、趨勢擬合法 3、組合模型 4、AR模型 5、MA模型 6、ARMA模型 7、ARIMA模型 8、ARCH模型 9、GARCH模型及其衍生模型 前一篇介紹了AR模型,其實MA模型與

原创 數據挖掘——時間序列的預處理

數據挖掘——時間序列的預處理前言一、平穩非白噪聲序列1、平穩時間序列的定義2、平穩性檢驗二、非平穩序列三、純隨機序列 前言 拿到一個觀察值後,首先要對他的純隨機性和平穩性進行檢驗,這兩個重要的檢驗稱爲序列的預處理。根據檢驗結果可以

原创 數據挖掘——時間序列算法之平穩性檢驗

數據挖掘——時間序列算法之平穩性檢驗平穩時間序列定義時間序列平穩性檢驗針對平穩和不平穩序列,目前的主要算法 平穩時間序列定義 對於隨機變量X,可以計算其均值μ\muμ、方差σ2\sigma^{2}σ2;對於兩個隨機變量X和Y。可以

原创 數據挖掘——時間序列算法之趨勢擬合法

數據挖掘——時間序列算法之趨勢擬合法前言線性擬合曲線擬合1、二次型2、指數型3、修正指數型4、Gompertz型5、Logistic型 前言 趨勢擬合法就是把時間作爲自變量,相應的序列觀察值作爲因變量,建立序列值隨時間變化的迴歸模

原创 數據挖掘——爲什麼使用啞變量?啞變量有哪些作用?哪些情況應該使用啞變量?

數據挖掘——爲什麼使用啞變量?啞變量有哪些作用?哪些情況應該使用啞變量? 直接給鏈接: https://www.cnblogs.com/sddai/p/8834373.html

原创 數據挖掘——時間序列算法之ARMA模型

數據挖掘——時間序列算法之ARMA模型ARMA基本說明ARMA建模步驟 1、平滑法 2、趨勢擬合法 3、組合模型 4、AR模型 5、MA模型 6、ARMA模型 7、ARIMA模型 8、ARCH模型 9、GARCH模型及其衍生模型

原创 數據挖掘——近似最近鄰算法ANN之LSH

數據挖掘——近似最近鄰算法ANN之LSH簡介LSH算法LSH之相似網頁查找——Simhash 簡介 局部敏感哈希(Locality Sensitive Hashing,LSH)主要是爲了處理高維度數據的查詢和匹配等操作。 關於這個

原创 問題記錄——pd.read_hdf throws 'cannot set WRITABLE flag to True of this array'

問題記錄——pd.read_hdf throws 'cannot set WRITABLE flag to True of this array'解決辦法:降級numpy 可以使用如下寫入h5文件 df.to_hdf('../te

原创 邏輯迴歸解決多分類問題

邏輯迴歸解決多分類問題第一種方式:從類別入手1、OVO(one vs one)2、OVR(One Vs Rest)第二種方法:從算法入手 傳統的邏輯迴歸只能處理二分類問題,對於多分類任務,主要有如下兩種方案。 第一種方式:從類別入

原创 數據挖掘項目:基於熱水器的洗浴事件識別

數據挖掘項目——基於熱水器的洗浴事件識別前言1. 項目描述2.處理流程數據探索性分析EDA數據預處理特徵重做製作標籤構建模型 前言 1. 項目描述 本項目基於熱水器採集的時間序列數據,將順序排列的離散的用水時間節點根據水流量和停頓

原创 機器學習——提升方法Adaboost算法

機器學習——提升方法Adaboost算法前言提升方法的基本思路Adaboost算法Adaboost例子 前言 注:該文大部分來自於李航的《統計學習》,此篇可理解爲個人筆記。 提升方法的基本思路 簡單來說就是“三各臭皮匠頂一個諸葛亮

原创 機器學習——社區發現算法

機器學習——社區發現算法一、什麼是社區?二、社區發現算法的應用場景三、社區發現算法 一、什麼是社區? 答:同一社區內的節點與節點之間的連接很緊密,而社區與社區之間的連接比較稀疏。 設圖G=G(V,E)G= G(V,E)G=G(V,

原创 Bagging、Boosting的區別

Bagging、Boosting的區別 樣本選擇:Bagging算法是有放回的隨機採樣;Boosting算法是每一輪訓練集不變,只是訓練集中的每個樣例在分類器中的權重發生變化,而權重根據上一輪的分類結果進行調整; 樣例權重:Ba

原创 pandas中iloc和loc的區別和用法

pandas中iloc和loc的區別和用法 from Pandas中loc和iloc函數用法詳解(源碼+實例) loc函數:通過行索引 “Index” 中的具體值來取行數據(如取"Index"爲"A"的行) iloc函數:通過行