原创 Seaborn繪製熱力圖

Seaborn繪製熱力圖 Seaborn.heatmap (data, vmin=None, vmax=None, camp=None, center=None, robust=False, annot=None, fmt=’.2g’,

原创 透視表(pivotTab)和交叉表(crossTab)

Pandas:透視表(pivotTab)和交叉表(crossTab) 一、透視表(pivotTab) 透視表就是將指定原有DataFrame的列分別作爲行索引和列索引,然後對指定的列應用聚集函數(默認情況下式mean函數)。   imp

原创 sklearn中的k折交叉驗證

K折交叉驗證: sklearn.model_selection.KFold(n_splits=3,shuffle=False,random_state=None) 思路:將訓練/測試數據劃分n_splits個互斥子集,每次用其中一個子集當

原创 sklearn 中的 Pipeline 機制

sklearn 中的 Pipeline 機制 from sklearn.pipeline import Pipeline 管道機制實現了對全部步驟的流式化封裝和管理(streaming workflows with pipelines)。

原创 kaggle-房價預測案例

 此案例爲kaggle上面的房價預測案例 https://www.kaggle.com/c/house-prices-advanced-regression-techniques 具體代碼如下 import numpy as np im

原创 Kaggle_Titanic生存預測 -- 詳細流程吐血梳理

轉載 一直想在Kaggle上參加一次比賽,奈何被各種事情所拖累。爲了熟悉一下比賽的流程和對數據建模有個較爲直觀的認識,斷斷續續用一段時間做了Kaggle上的入門比賽:Titanic: Machine Learning from Disas

原创 kaggle比賽集成指南

轉自 介紹 集成模型是一種能在各種的機器學習任務上提高準確率的強有力技術。在這篇文章中,我會分享我在Kaggle比賽中的集成方法。 在第一部分中,我們會討論從提交文件中建立集成。主要包括: 投票集成 平均 排名平均 第二部分我們會討論 通

原创 pd.get_dummies()與pd.factorize()詳解

pandas.get_dummies (將類別變量轉換爲one-hot編碼,使用pandas方法實現,相當於sklearn的one-hot編碼)   離散特徵的編碼分爲兩種情況: 1、離散特徵的取值之間沒有大小的意義,比如color:[r

原创 pandas學習詳細教程

pandas基礎篇 我們打算從以下幾個方面進行代碼練習: ** 創建Series ** Series基本操作 ** 創建DataFrame ** DataFrame基本操作 ** DataFrame文件操作 ** Serie

原创 python數據處理

#-------------------------python數據分析特徵預處理代碼示例---------------------------- import pandas as pd import scipy.stats as ss

原创 NLP練習

import numpy as np import pandas as pd from sklearn.ensemble import RandomForestRegressor,BaggingRegressor from sklear

原创 數據分析流程

數據分析流程 數據獲取 -> 探索分析與可視化 -> 數據預處理 -> 數據分析與建模 -> 模型評估 數據分析就是利用統計分析方法,來提取有用的信息並進行總結與概括的過程。 數據獲取的手段可以分爲以下四種: 數據倉庫 將所有業務數據

原创 LDA主題模型

LDA文檔主題生成模型 LDA是一種文檔主題生成模型,包含詞、主題和文檔三層結構。 所謂生成模型,就是說,我們認爲一篇文章的每個詞都是通過“以一定概率選擇了某個主題,並從這個主題中以一定概率選擇某個詞語”這樣一個過程得到。文檔到主題服從多

原创 Sklearn中的線性迴歸

import numpy as np import matplotlib.pyplot as plt from sklearn.linear_model import LinearRegression #假設樣本數據集如下; dat

原创 Sklearn實現樸素貝葉斯

#------------------------------Sklearn 實現樸素貝葉斯----------------------- # 在scikit-learn中,一共有3個樸素貝葉斯的分類算法類。 # 分別是Gaussia