10个自动EDA库功能介绍:几行代码进行的数据分析靠不靠谱

探索性数据分析是数据科学模型开发和数据集研究的重要组成部分之一。在拿到一个新数据集时首先就需要花费大量时间进行EDA来研究数据集中内在的信息。自动化的EDA软件包可以用几行Python代码执行EDA。在本文中整理了10个可以自动执行EDA并生成有关数据的见解的软件包,看看他们都有什么功能,能在多大程度上帮我们自动化解决EDA的需求。

  1. 1) DTale
  2. 2) Pandas-profiling
  3. 3) sweetviz
  4. 4) autoviz
  5. 5) dataprep
  6. 6) KLib
  7. 7) dabl
  8. 8) speedML
  9. 9) datatile
  10. 10) edaviz

1、D-Tale

D-Tale使用Flask作为后端、React前端并且可以与ipython notebook和终端无缝集成。D-Tale可以支持Pandas的DataFrame, Series, MultiIndex, DatetimeIndex和RangeIndex。

  1. import dtale
  2. import pandas as pd
  3. dtale.show(pd.read_csv("titanic.csv"))

D-Tale库用一行代码就可以生成一个报告,其中包含数据集、相关性、图表和热图的总体总结,并突出显示缺失的值等。D-Tale还可以为报告中的每个图表进行分析,上面截图中我们可以看到图表是可以进行交互操作的。

2、Pandas-Profiling

Pandas-Profiling可以生成Pandas DataFrame的概要报告。panda-profiling扩展了pandas DataFrame df.profile_report(),并且在大型数据集上工作得非常好,它可以在几秒钟内创建报告。

 

完整文章:

https://avoid.overfit.cn/post/d4fef866d3ab428b8e2939859bbef2fa

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章