數據可視化的簡介、功能及seaborn模塊的常用功能

第一關 數據可視化的簡介、功能及seaborn模塊的常用功能


前置知識

  • Python基本語法知識
  • Python入門
  • 邏輯結構與流程控制
  • 函數
  • 模塊與包
  • matplotlib模塊

1.1 瞭解數據可視化的概念、功能

什麼是可視化

  • 數據可視化不就是畫圖嗎,看不出來研究的價值在哪?
  • 其實不然,數據可視化可以給使用的人帶來視覺上的衝擊。
  • 那數據可視化就是把數據從冰冷的數字轉換成圖形,頂多就是色彩豐富一些,看起來更炫酷。
  • 不僅僅是更好看,好的數據可視化能夠揭示蘊含在數據中的規律和道理。

可視化的功能

  • 可視化有什麼功能呢?
  • 可視化的最終目標是洞悉蘊含在數據中的現象和規律,這裏面有多重含義:發現、決策、解釋、分析、探索和學習。
  • 簡而言之:可視化表達增強了人們完成某些任務的效率。
  • 可視化作爲人腦的輔助工具,替代我們保留一部分的信息以及圖形化的符號可以將用戶的注意力引導到重要的目標。

1.2 seaborn模塊的功能及與matplotlib的區別、關聯

  • matplotlib也是畫圖的,那和seaborn有什麼區別呢?
  • seaborn是基於matplotlib(python畫圖的基礎模塊)的圖形可視化python包。它提供了一種高度交互式界面,便於用戶能夠做出各種有吸引力的統計圖表。
  • seaborn是在matplotlib的基礎上進行了更高級的api封裝,從而使得作圖更加容易,在大多數情況下使用seaborn能做出很具有吸引力的圖,而使用matplotlib就能製作具有更多特色的圖。
  • 應該把seaborn視爲matplotlib的補充,而不是替代物。同時它能高度兼容numpy(一個矩陣和數組運算的模塊)與pandas(數據分析的主要模塊)數據結構以及scipy(一個科學運算的模塊)與statsmodels(python中的統計模塊)等統計模式。
  • seaborn的主要功能有哪些?
  • seaborn功能一般分爲5個大類,大類和功能如下表:
  1. 關係圖類:
    關注的是統計量之間的關係,比如x和y一般是數值型數據,關注兩個數值變量之間的關係一般爲散點圖,曲線圖等
  2. 分類圖
    通過分類之後關注統計量在類別上的分佈,一般爲散點圖,箱圖,小提琴圖等
  3. 分佈圖
    分佈圖表示的是變量取值時的概率大小的一種圖形,一般有直方圖,核函數密度估計圖,雙變量關係圖等
  4. 迴歸圖
    描述線性關係的一種圖形(將x和y的關係盡力用直線去擬合,有點像高中數學裏面把散點用直線連起來 )
  5. 矩陣圖
    研究是變量比較多(x比較多),把x兩兩組合查看之間的關係的一種圖形,一般有熱力圖,聚集圖等

1.3 環境準備:部署python實操環境和seaborn模塊

  • 什麼是Anaconda?
  • Anaconda相當於一個容器,裏面包含了python的編輯器和常用的數據科學的模塊,方便新手學習,不用新手自己配置環境,軟件對模塊會自動管理。
  • 如何下載Anaconda?
  • 下載Anaconda鏈接:
    https://repo.anaconda.com/archive/Anaconda3-2020.02-Windows-x86_64.exe(Windows)
    https://repo.anaconda.com/archive/Anaconda3-2020.02-MacOSX-x86_64.pkg(Mac)
  • Anaconda裏面內容這麼多,Anaconda有什麼樣的特點呢?
  • Anaconda具有下面幾個特點:開源(公開,免費的意思),安裝過程簡單,使用起來非常方便,交互式的命令行(代碼一行一行執行)。
  • Seaborn是不是也在Anaconda裏面呢?
  • Seaborn以及相關的依賴包(依賴包好比搭房子時候需要的組件)都在下載好的Anaconda裏,不需要自行配置。
  • Anaconda這麼好用,如何正確的使用Anaconda呢?
  • 首先在電腦的任意文件夾中,在空白處右鍵點shift,然後在此處打開命令窗口,然後在CMD中打上jupyter notebook的字樣,這樣就會用默認瀏覽器彈出一個網頁(這個網頁的名字叫jupyter),這樣就可以在裏面進行編程了。
  • 安裝Anaconda以及使用Anaconda的方法的視頻鏈接如下:
    https://www.bilibili.com/video/BV1tK4y1s7MR/(我自己的B站視頻)
  • 在new那裏點擊python3,這樣就新建了一個新的交互式的命令行,你就可以在那裏運行你有關seaborn的代碼了,是不是很簡單。

1.4 感受Seaborn的可視化美妙之處

  • 安裝好Anaconda,並且打開後,這時候我們需要感受一下seaborn的可視化的魅力了。
  • 我們現在使用iris數據集來做一個小實驗
  • 什麼是iris數據集合呢?
  • Iris數據集是數據分析常用的數據集,數據一共150個樣本,分爲三個種類,每個數據包含4個屬性。其中通過花萼長度,花萼寬度,花瓣長度,花瓣寬度4個屬性預測鳶尾花卉屬於(Setosa,Versicolour,Virginica)三個種類中的哪一類
  • 畫一個變量關係的組合圖,目的是看三個種類在兩兩屬性上的分佈情況
  • 那我們就馬上開始在jupyter裏面輸入我們的代碼吧,具體的代碼如下:
import seaborn as sns
import matplotlib.pyplot as plt
# 導入matplotlib和seaborn
%matplotlib inline
# 在jupyter notebook中可以顯示圖片

iris = sns.load_dataset("iris")
# 導入seaborn自帶的數據集iris
g = sns.PairGrid(iris, hue="species")
# PairGrid變量關係組圖,hue代表你的目標
g.map_diag(plt.hist)
# 在每個對角線子圖上使用柱形圖
g.map_offdiag(plt.scatter)
# 在每個非對角線子圖上使用散點圖
g.add_legend()
# 上面2條添加到圖例中

顯示的圖形如下:
變量關係組圖

1.5 總結

在這關,你能瞭解可視化概念以及功能,並且知道seaborn模塊的功能以及和matplotlib之間的區別。下載好Anaconda,並且開始使用Anaconda,然後用seaborn畫出你自己想要的數據分析的圖形吧。

闖關練習:

以下說法正確的是:

A. seaborn和matplotlib沒有關係
B. seaborn不是python中的一個模塊
C. 沒有配置matplotlib包,seaborn也可以運行
D. seaborn是基於matplotlib的圖形可視化python包

答案:D。seaborn是基於matplotlib組件的一個模塊,是在matplotlib基礎上構建起來的。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章