简介

我将向您展示四个最好的Python包,它们可以自动化您的数据探索和分析。我将详细介绍每一个,它的作用以及如何使用它。

工具介绍

DataPrep

  • python中的开源低代码数据准备库。用几行代码在python中收集、清理和可视化您的数据。

    安装

    1
    2
    pip install dataprep
    pip install connectorx

    connectorx

  • connectorx

  • 单数据库

    1
    2
    3
    import connectorx as cx

    cx.read_sql("postgresql://username:password@server:port/database", "SELECT * FROM lineitem")
  • 分区加载

    1
    2
    3
    import connectorx as cx

    cx.read_sql("postgresql://username:password@server:port/database", "SELECT * FROM lineitem", partition_on="l_orderkey", partition_num=10)
  • 多数据库

    1
    2
    3
    4
    5
    6
    import connectorx as cx

    db1 = "postgresql://username1:password1@server1:port1/database1"
    db2 = "postgresql://username2:password2@server2:port2/database2"

    cx.read_sql({"db1": db1, "db2": db2}, "SELECT * FROM db1.nation n, db2.region r where n.n_regionkey = r.r_regionkey")

Pandas Profiling

  • 从Panda DataFrame对象创建HTML分析报告

安装

1
pip install ydata-profiling

SweetViz

  • 可视化和比较数据集,价值观和目标

安装

1
pip install sweetviz

使用案例

AutoViz

  • 用一行代码自动可视化任何大小的数据集。由Ram Seshadri创建。欢迎合作者。根据请求授予的权限。

安装

1
pip install autoviz

参考资料