之前在做数据分析的时候,用过一个自动化生成数据探索报告的Python库:ydata_profiling
一般我们在做数据处理前会进行数据探索,包括看统计分布、可视化图表、数据质量情况等,这个过程会消耗很多时间,可能需要上百行代码才能实现。
ydata_profiling能够直接完成数据探索的工作,只需要几行代码,它会生成互动网页形式的报告,里面包含数据概览、字段分布、统计学特征、相关性、缺失值、样本信息等。
# 导入库from ydata_profiling import ProfileReportimport pandas as pd# 读取数据df = pd.read_csv('housing.csv')# 自动生成数据探索报告profile = ProfileReport(df, title="Profiling Report")profile
以上代码在Jupyter notebook中执行,生成数据探索报告如下
ydata_profiling文档提了几个用途,我觉得还是比较实用的。
首先可以看到数据集的整体信息,包括字段数、缺失值行、重复行、占内存大小等等
你可以看到所有字段的统计学特征以及分布情况,包括均值、分位值、最大最小值
这是个交互可视化图,可以选择任意两个字段,看他们的散点分布关系,通过这个你可以很直观的知道各个字段的关联关系是什么样的,正相关、负相关、无相关等
这里通过热力图展示每个字段的相关性,也可以看到具体的值
通过柱状图可以清晰看到每个字段缺失值情况
可以展示前10、尾10的样本数据
如果你想加快数据分析的速度,可以好好把ydata_profiling利用起来,前期数据探索阶段可以省很多时间。
本文链接://www.dmpip.com//www.dmpip.com/showinfo-26-17178-0.htmlYdata_Profiling:自动生成数据探索报告的Python库
声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com
上一篇: 数据结构与算法—线性表