原创 數據挖掘之房價預測任務

目錄:一. 查看數據1.1 查看標籤1.2 特徵與標籤1.3 相關性1.4 缺失值二. 數據處理2.1 去掉離羣點2.2 正態分佈變換: 對數變換log(1+x)2.3 缺失值填充2.4 Encoder轉換2.5 正態分佈變換:

原创 協同過濾與隱語義模型推薦系統實例2: 基於相似度的推薦

[ 協同過濾與隱語義模型推薦系統實例1: 數據處理 ] 基於相似度的推薦系統 一. 排行榜單推薦 from sklearn.model_selection import train_test_split triplet_data

原创 ARIMA 時間序列2: 評估和參數選擇

ARIMA -> SARIMA -> SARIMAX: S是Seasonal,就是季節性、週期性的意思 X是eXogenous,外部信息的意思 季節性參數: P:季節性自迴歸階數。 D:季節性差分階數。 Q:季節性移動平均

原创 時間處理date_range,truncate,Timestamp,Period,Timedelta,resample,rolling

文章目錄1. date_range2. truncate 過濾3. Timestamp, Period, Timedelta3.1 Timestamp 時間戳3.2 Period 時間區間3.3 Timedelta 時間差3.4

原创 HMM隱馬爾科夫模型與實例2: 預測股票走勢

from __future__ import print_function #python2.X,使用print就得像python3.X那樣加括號使用 import datetime import numpy as np impo

原创 數據挖掘之京東購買意向預測

目錄:一. 數據檢查1.1 檢查用戶是否一致1.2 檢查是否有重複記錄1.3 檢查註冊時間1.3 INT類型轉換二. 構建特徵表單2.1 構建User_table2.2 構建Item_table三. 數據清洗四. 數據探索4.1

原创 PairGrid兩兩關係圖&皮爾遜相關係數

Pearson相關係數,幫助我們來篩選特徵 用PairGrid 可以按我們的需求去自定義下需要展示的部分 plot_data = features[['score', 'A', 'B', 'C']] plot_data = pl

原创 HMM隱馬爾科夫模型與實例1

隱馬爾可夫模型 Hidden Markov Model (HMM) 以下三個問題,人們提出了相應的算法 1 評估問題: 前向算法 2 解碼問題: Viterbi算法 (維特比算法) 3 學習問題: Baum-Welch算法(向前

原创 matplotlib中的pie圖

餅圖 設置顏色 設置字體顏色 設置說明文字 %matplotlib inline import matplotlib.pyplot as plt m = 51212 f = 40742 m_perc = m/(m+f) f_

原创 python查看數據缺失值比例模板

對於一個DataFrame數據, 如何查看其缺失值的情況 %matplotlib inline import missingno as msno msno.matrix(data, figsize = (16, 5)) def

原创 推薦系統實例之surprise庫

surprise官方網址:http://surprise.readthedocs.io/en/stable/index.html from surprise import KNNBasic from surprise import

原创 EDA探索性數據分析 -- 聯合國糧農組織: 水資源

目錄:一. 認識數據1.1 讀取數據1.2 缺失值狀況二. 切片分析2.1 time slicing2.2 country slicing2.3 variable slicing2.4 country and variable s

原创 ARIMA 時間序列3: 使用tsfresh庫進行分類任務

文章目錄1. 查看數據2. 時間序列特徵提取3. 用決策樹訓練,預測和評估模型 tsfresh是開源的提取時序數據特徵的python包,能夠提取出超過4000種特徵 . 1. 查看數據 import matplotlib.pypl

原创 創建子表並快速測試唯一性的封裝(自定義)函數

從一個大數據中創建子表並快速測試唯一性的輔助函數 player_index = 'playerShort' player_cols = ['birthday', 'height', 'weight', 'position', 'p

原创 matplotlib畫子圖: plt.subplot 與 plt.subplots

在一張畫布上畫多個子圖, 嘗試兩種方式: plt.subplots(nrows, ncols) 子圖需要一個一個的指定 plt.subplot(nrows, ncols, i) 子圖可以使用for循環 一. plt.subpl