↑↑↑點擊上方藍字,回覆資料,10個G的驚喜
可視化是一種使用不同的圖形和圖來可視化數據的技術。在數據科學中,我們通常使用數據可視化技術來理解數據集,找到數據之間的關係。可視化還可以幫助找到用於進一步分析的數據集中的模式。
python中有不同的技術/庫用於數據可視化,如Matplotlib, Seaborn, Plotly等。但是在使用所有這些庫的同時,我們需要定義我們想要可視化的圖的類型和我們需要可視化的參數。
在本文中,我們將學習一個python庫AutoViz,它可以用一行代碼自動完成數據可視化的整個過程。
AutoViz只需一行代碼就可以自動顯示任何數據集。AutoViz可以找到最重要的功能,並只使用那些自動選擇的功能繪製有影響力的可視化。此外,AutoViz的速度非常快,幾秒鐘內就能實現可視化。
讓我們在一些數據集的幫助下開始探索AutoViz。在使用AutoViz之前,我們需要安裝它。
像任何其他python庫一樣,我們可以使用下面給出的pip install命令來安裝AutoViz。
pip install autoviz
加載數據集和分析
在這裏,我將使用不同的數據集來可視化/探索AutoViz可以生成的不同類型的圖表/圖。你可以從Github倉庫中下載所有的數據集。https://github.com/hmix13/AutoViz
這個數據集包含不同汽車製造商的不同屬性。讓我們使用AutoViz來可視化這個數據集。
AutoViz可以通過以下3個簡單步驟實現。
#importing Autoviz class
from autoviz.AutoViz_Class import AutoViz_Class#Instantiate the AutoViz class
AV = AutoViz_Class()
這些步驟將導入AutoViz類並實例化它。最後一步是創建可視化。僅僅這一行代碼就可以創建所有的可視化,其中包含計數中的所有屬性。
df = AV.AutoViz('car_design.csv')
直方圖(KDE圖)
連續變量的小提琴圖
連續變量的熱圖
正如您在上面所看到的,這些是使用AutoViz在一行代碼中生成的不同繪圖。
讓我們再分析一個數據集,在這個數據集中,有4個屬性描述了一個公司的廣告支出和銷售。我們將通過創建上面使用的修改數據集的步驟來分析這個問題。
在這裏,我們將傳遞另一個參數depVar,它是因變量,以便AutoViz相應地創建可視化。在這個數據集中,我們知道“銷售”是因變量。
df = AV.AutoViz('Advrtising.csv', depVar='Sales')
銷售變量散點圖
同樣地,您將看到它將創建直方圖、小提琴圖、熱圖等,並將“銷售”作爲一個因變量。
我們在調用AutoViz時可以傳遞的其他參數有:
Sep 分隔數據的分隔符,默認爲','。
target 它是數據集中的目標變量。
Chart_format 顯示的圖表格式。
Max_row_analyzed 用於定義要分析的行數
Max_cols_analyzed用於定義要分析的列的數量。
在本文中,我們看到只需一行代碼就可以可視化數據集,並且可以相應地找到數據集中的模式。
AutoViz能夠適應任何數量的不同數據上下文,如迴歸、分類,甚至時間序列數據。繼續使用不同的數據集探索這個庫,並在響應部分分享您的經驗。
作者:Himanshu Sharma deephub翻譯組
原文地址:https://hmix13.medium.com/autoviz-automatically-visualize-any-dataset-75876a4eede4
推薦閱讀
(點擊標題可跳轉閱讀)
老鐵,三連支持一下,好嗎?↓↓↓
本文分享自微信公衆號 - 機器學習算法與Python實戰(tjxj666)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。