数据探索EDA
简介
我将向您展示四个最好的Python包,它们可以自动化您的数据探索和分析。我将详细介绍每一个,它的作用以及如何使用它。
工具介绍
DataPrep
python中的开源低代码数据准备库。用几行代码在python中收集、清理和可视化您的数据。
安装
1
2pip install dataprep
pip install connectorxconnectorx
单数据库
1
2
3import connectorx as cx
cx.read_sql("postgresql://username:password@server:port/database", "SELECT * FROM lineitem")分区加载
1
2
3import connectorx as cx
cx.read_sql("postgresql://username:password@server:port/database", "SELECT * FROM lineitem", partition_on="l_orderkey", partition_num=10)多数据库
1
2
3
4
5
6import connectorx as cx
db1 = "postgresql://username1:password1@server1:port1/database1"
db2 = "postgresql://username2:password2@server2:port2/database2"
cx.read_sql({"db1": db1, "db2": db2}, "SELECT * FROM db1.nation n, db2.region r where n.n_regionkey = r.r_regionkey")
Pandas Profiling
- 从Panda DataFrame对象创建HTML分析报告
安装
1 | pip install ydata-profiling |
SweetViz
- 可视化和比较数据集,价值观和目标
安装
1 | pip install sweetviz |
使用案例
AutoViz
- 用一行代码自动可视化任何大小的数据集。由Ram Seshadri创建。欢迎合作者。根据请求授予的权限。
安装
1 | pip install autoviz |
参考资料
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Jacker-zzk's Blog!