什麼是EDA

探索性數據分析（Exploratory Data Analysis，簡稱EDA），是指對已有的數據（特別是調查或觀察得來的原始數據）在儘量少的先驗假定下進行探索，通過作圖、製表、方程擬合、計算特徵量等手段探索數據的結構和規律的一種數據分析方法。特別是當我們面對各種雜亂的“髒數據”，往往不知所措，不知道從哪裏開始瞭解目前拿到手上的數據時候，探索性數據分析就非常有效。探索性數據分析是上世紀六十年代提出，其方法有美國統計學家John Tukey提出的。
引用一下羣裏的分享

定性數據：描述性質
a) 定類：按名稱分類——血型、城市
b) 定序：有序分類——成績（A B C）
定量數據：描述數量
a) 定距：可以加減——溫度、日期
b) 定比：可以乘除——價格、重量

EDA目標

EDA的價值主要在於熟悉數據集，瞭解數據集，對數據集進行驗證來確定所獲得數據集可以用於接下來的機器學習或者深度學習使用。
當了解了數據集之後我們下一步就是要去了解變量間的相互關係以及變量與預測值之間的存在關係。
引導數據科學從業者進行數據處理以及特徵工程的步驟,使數據集的結構和特徵集讓接下來的預測問題更加可靠。
完成對於數據的探索性分析，並對於數據進行一些圖表或者文字總結並打卡。

主要工作

導入、觀察數據

導入相關的庫

#導入warnings包，利用過濾器來實現忽略警告語句。
import warnings
warnings.filterwarnings('ignore')
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno

讀入數據（csv文件，訓練數據和測試數據）

Train_data = pd.read_csv('used_car_train_20200313.csv', sep=' ')
Test_data = pd.read_csv('used_car_testA_20200313.csv', sep=' ')

簡略觀察數據（顯示前後五行和數據的）

Train_data.head().append(Train_data.tail())

列名	含義
SaleID	交易ID，唯一編碼
name	汽車編碼，已脫敏
regDate	汽車註冊時間
model	車型編碼，已脫敏
brand	品牌，已脫敏
bodyType	車身類型：豪華轎車：0，微型車：1.廂型車：2，大巴車：3，敞篷車：4，雙門汽車：5，商務車：6，攪拌車：7
fuelType	燃油類型：汽油：0，柴油：1，液化石油氣：2，天然氣：3，混合動力：4，其他：5，電動：6
grearbox	變速箱：手動：0，自動：1
power	功率 [0,600]
kilometer	行駛公里（萬公里）
notRepairedDamage	汽車有尚未修復的損壞（是：0，否：1）
regionCode	看車地區編碼已脫敏
seller	銷售方個體：0，非個體：1
offerType	報價類型提供：0，請求：1
creatDate	發佈時間
v_0 ----v_14	15個匿名特徵
price	價格（label）

數據總覽

數據類型

通過info方法來了解數據每列的type，有助於瞭解是否存在除了nan以外的特殊符號異常

Train_data.info()

數據檢測

缺失值檢測

Train_data.isnull().sum()#查看每列存在的nan情況

可視化

missing = Train_data.isnull().sum()
missing = missing[missing > 0]#篩選出有缺失值的數據行
missing.sort_values(inplace=True)#排序
missing.plot.bar()#柱狀圖

通過以上很直觀的瞭解哪些列存在 “nan”, 並可以把nan的個數打印，主要的目的在於 nan存在的個數是否真的很大，如果很小一般選擇填充，但如果nan存在的過多、可以考慮刪掉

msno.matrix(Train_data.sample(250))#可看到每個變量的缺失情況

msno.bar(Train_data)#條形圖可以更直觀的看出每個變量缺失的比例和數量情況

異常值檢測

1、由info方法輸出數據類型中發現除了notRepairedDamage 爲object類型其他都爲數字
這裏把這列的的不同值顯示。

Train_data['notRepairedDamage'].value_counts()

所以‘ - ’也爲空缺值，因爲很多模型對nan有直接的處理，所以我們先替換成nan

Train_data['notRepairedDamage'].replace('-', np.nan, inplace=True)
Test_data['notRepairedDamage'].replace('-', np.nan, inplace=True)

2、結合之前describe方法中觀察到的結論，我們對seller和offerType兩個特徵進行展示

Train_data["seller"].value_counts()

Train_data["offerType"].value_counts()

兩個類別特徵嚴重傾斜，一般不會對預測有什麼幫助，故刪掉

del Train_data["seller"]
del Train_data["offerType"]
del Test_data["seller"]
del Test_data["offerType"]

預測分佈

總體分佈概況（無界約翰遜分佈等）

import scipy.stats as st
y = Train_data['price']
plt.figure(1); plt.title('Johnson SU')
sns.distplot(y, kde=False, fit=st.johnsonsu)
plt.figure(2); plt.title('Normal')
sns.distplot(y, kde=False, fit=st.norm)
plt.figure(3); plt.title('Log Normal')
sns.distplot(y, kde=False, fit=st.lognorm)

價格不服從正態分佈，所以在進行迴歸之前，它必須進行轉換。雖然對數變換做得很好，但最佳擬合是無界約翰遜分佈

查看偏度和峯度

sns.distplot(Train_data['price']);
print("Skewness: %f" % Train_data['price'].skew())
print("Kurtosis: %f" % Train_data['price'].kurt())

Skewness > 0 ，正偏差數值較大，爲正偏或右偏。長尾巴拖在右邊，數據右端有較多的極端值。
Kurtosis>0 比正態分佈的高峯更加陡峭——尖頂峯

查看預測值的具體頻數

plt.hist(Train_data['price'], orientation = 'vertical',histtype = 'bar', color ='red')
plt.show()

查看頻數, 大於20000極少，這裏也可以把這些當作特殊得值（異常值）直接用填充或者刪掉

4、 log變換之後的分佈較均勻，可以進行log變換進行預測

plt.hist(np.log(Train_data['price']), orientation = 'vertical',histtype = 'bar', color ='red') 
plt.show()

特徵分析

類別特徵

unique分佈

numeric_features = ['power', 'kilometer', 'v_0', 'v_1', 'v_2', 'v_3', 'v_4', 'v_5', 'v_6', 'v_7', 'v_8', 'v_9', 'v_10', 'v_11', 'v_12', 'v_13','v_14' ]
categorical_features = ['name', 'model', 'brand', 'bodyType', 'fuelType', 'gearbox', 'notRepairedDamage', 'regionCode']
# 特徵nunique分佈
for cat_fea in categorical_features:
    print(cat_fea + "的特徵分佈如下：")
    print("{}特徵有個{}不同的值".format(cat_fea, Train_data[cat_fea].nunique()))
    print(Train_data[cat_fea].value_counts())

可視化

箱型圖

# 因爲 name和 regionCode的類別太稀疏了，這裏我們不畫稀疏的幾類
categorical_features = ['model',
 'brand',
 'bodyType',
 'fuelType',
 'gearbox',
 'notRepairedDamage']
for c in categorical_features:
    Train_data[c] = Train_data[c].astype('category')
    if Train_data[c].isnull().any():
        Train_data[c] = Train_data[c].cat.add_categories(['MISSING'])
        Train_data[c] = Train_data[c].fillna('MISSING')

def boxplot(x, y, **kwargs):
    sns.boxplot(x=x, y=y)
    x=plt.xticks(rotation=90)

f = pd.melt(Train_data, id_vars=['price'], value_vars=categorical_features)
g = sns.FacetGrid(f, col="variable",  col_wrap=2, sharex=False, sharey=False, size=5)
g = g.map(boxplot, "value", "price")

小提琴圖

catg_list = categorical_features
target = 'price'
for catg in catg_list :
    sns.violinplot(x=catg, y=target, data=Train_data)
    plt.show()

柱形圖

def bar_plot(x, y, **kwargs):
    sns.barplot(x=x, y=y)
    x=plt.xticks(rotation=90)

f = pd.melt(Train_data, id_vars=['price'], value_vars=categorical_features)
g = sns.FacetGrid(f, col="variable",  col_wrap=2, sharex=False, sharey=False, size=5)
g = g.map(bar_plot, "value", "price")

可視化每個類別特徵頻數

def count_plot(x,  **kwargs):
    sns.countplot(x=x)
    x=plt.xticks(rotation=90)

f = pd.melt(Train_data,  value_vars=categorical_features)
g = sns.FacetGrid(f, col="variable",  col_wrap=2, sharex=False, sharey=False, size=5)
g = g.map(count_plot, "value")

數字特徵

特徵的偏度和峯值

for col in numeric_features:
    print('{:15}'.format(col), 
          'Skewness: {:05.2f}'.format(Train_data[col].skew()) , 
          '   ' ,
          'Kurtosis: {:06.2f}'.format(Train_data[col].kurt())  
         )

power變量分佈偏峯

數字特徵分佈可視化

f = pd.melt(Train_data, value_vars=numeric_features)
g = sns.FacetGrid(f, col="variable",  col_wrap=2, sharex=False, sharey=False)
g = g.map(sns.distplot, "value")

可以看出匿名特徵相對分佈均勻

數字特徵相互關係可視化

sns.set()
columns = ['price', 'v_12', 'v_8' , 'v_0', 'power', 'v_5',  'v_2', 'v_6', 'v_1', 'v_14']
sns.pairplot(Train_data[columns],size = 2 ,kind ='scatter',diag_kind='kde')
plt.show()

多變量互相迴歸關係可視化

fig, ((ax1, ax2), (ax3, ax4), (ax5, ax6), (ax7, ax8), (ax9, ax10)) = plt.subplots(nrows=5, ncols=2, figsize=(24, 20))
# ['v_12', 'v_8' , 'v_0', 'power', 'v_5',  'v_2', 'v_6', 'v_1', 'v_14']
v_12_scatter_plot = pd.concat([Y_train,Train_data['v_12']],axis = 1)
sns.regplot(x='v_12',y = 'price', data = v_12_scatter_plot,scatter= True, fit_reg=True, ax=ax1)

v_8_scatter_plot = pd.concat([Y_train,Train_data['v_8']],axis = 1)
sns.regplot(x='v_8',y = 'price',data = v_8_scatter_plot,scatter= True, fit_reg=True, ax=ax2)

v_0_scatter_plot = pd.concat([Y_train,Train_data['v_0']],axis = 1)
sns.regplot(x='v_0',y = 'price',data = v_0_scatter_plot,scatter= True, fit_reg=True, ax=ax3)

power_scatter_plot = pd.concat([Y_train,Train_data['power']],axis = 1)
sns.regplot(x='power',y = 'price',data = power_scatter_plot,scatter= True, fit_reg=True, ax=ax4)

v_5_scatter_plot = pd.concat([Y_train,Train_data['v_5']],axis = 1)
sns.regplot(x='v_5',y = 'price',data = v_5_scatter_plot,scatter= True, fit_reg=True, ax=ax5)

v_2_scatter_plot = pd.concat([Y_train,Train_data['v_2']],axis = 1)
sns.regplot(x='v_2',y = 'price',data = v_2_scatter_plot,scatter= True, fit_reg=True, ax=ax6)

v_6_scatter_plot = pd.concat([Y_train,Train_data['v_6']],axis = 1)
sns.regplot(x='v_6',y = 'price',data = v_6_scatter_plot,scatter= True, fit_reg=True, ax=ax7)

v_1_scatter_plot = pd.concat([Y_train,Train_data['v_1']],axis = 1)
sns.regplot(x='v_1',y = 'price',data = v_1_scatter_plot,scatter= True, fit_reg=True, ax=ax8)

v_14_scatter_plot = pd.concat([Y_train,Train_data['v_14']],axis = 1)
sns.regplot(x='v_14',y = 'price',data = v_14_scatter_plot,scatter= True, fit_reg=True, ax=ax9)

v_13_scatter_plot = pd.concat([Y_train,Train_data['v_13']],axis = 1)
sns.regplot(x='v_13',y = 'price',data = v_13_scatter_plot,scatter= True, fit_reg=True, ax=ax10)

Task2:數據的探索性分析（EDA）

Task2:數據的探索性分析（EDA）

什麼是EDA

EDA目標

主要工作

導入、觀察數據

數據總覽

相關統計量

數據類型

數據檢測

缺失值檢測

異常值檢測

預測分佈

總體分佈概況（無界約翰遜分佈等）

查看偏度和峯度

查看預測值的具體頻數

特徵分析

類別特徵

unique分佈

可視化

箱型圖

小提琴圖

柱形圖

可視化每個類別特徵頻數

數字特徵

相關性分析

特徵的偏度和峯值

數字特徵分佈可視化

數字特徵相互關係可視化

多變量互相迴歸關係可視化

關於遊戲付費的一點想法

我通過CKA和CKS啦！

pytorch_task10 GAN

初識Tensor

Pytorch池化層、線性層、激活函數層

python實現SI、SIS、SIR、SIRS、SEIR、SEIRS模型

Task2:數據的探索性分析（EDA）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結