10個自動EDA庫功能介紹:幾行代碼進行的數據分析靠不靠譜

探索性數據分析是數據科學模型開發和數據集研究的重要組成部分之一。在拿到一個新數據集時首先就需要花費大量時間進行EDA來研究數據集中內在的信息。自動化的EDA軟件包可以用幾行Python代碼執行EDA。在本文中整理了10個可以自動執行EDA並生成有關數據的見解的軟件包,看看他們都有什麼功能,能在多大程度上幫我們自動化解決EDA的需求。

  1. 1) DTale
  2. 2) Pandas-profiling
  3. 3) sweetviz
  4. 4) autoviz
  5. 5) dataprep
  6. 6) KLib
  7. 7) dabl
  8. 8) speedML
  9. 9) datatile
  10. 10) edaviz

1、D-Tale

D-Tale使用Flask作爲後端、React前端並且可以與ipython notebook和終端無縫集成。D-Tale可以支持Pandas的DataFrame, Series, MultiIndex, DatetimeIndex和RangeIndex。

  1. import dtale
  2. import pandas as pd
  3. dtale.show(pd.read_csv("titanic.csv"))

D-Tale庫用一行代碼就可以生成一個報告,其中包含數據集、相關性、圖表和熱圖的總體總結,並突出顯示缺失的值等。D-Tale還可以爲報告中的每個圖表進行分析,上面截圖中我們可以看到圖表是可以進行交互操作的。

2、Pandas-Profiling

Pandas-Profiling可以生成Pandas DataFrame的概要報告。panda-profiling擴展了pandas DataFrame df.profile_report(),並且在大型數據集上工作得非常好,它可以在幾秒鐘內創建報告。

 

完整文章:

https://avoid.overfit.cn/post/d4fef866d3ab428b8e2939859bbef2fa

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章