python 聚合分类_数据分析四个步骤是什么

数据的分组统计是数据分析工作中的重要环节。本节将讲解GroupBy的原理和使用方法；聚合函数的使用；富足运算中transform和apply方法的使用；通过pandas创建数据透视表的方法；最后通过一个综合示例。巩固数据分析统计的使用。

5.1数据分组

5.1.1GroupBy简介

GroupBy技术用于数据分组运算，类似于Excel的分类汇总（对于不同分类进行运算），其运算的核心模式为split-apply-combine，如下图所示，首先，数据及按照key（分组键）的方式分成小的数据片（split）；然后对每一个数据片进行操作，如分类求和（apply）最后将结果再组合起来形成新的数据及（combine）

利用GroupBy方法可以轻松地完成分组统计的任务。以消费数据集为例，通过性别分别计算消费平均值，如下图

返回的grouped为GroupBy对象，是保存的中间数据，该对象调用mean（）方法即可返回数据。

mena方法完成了分组数据的聚合运算，返回列一个Series数据，更多聚合运算将在后面讲解。当然，也可以通过分组键进行计算，通过day和time，计算小费平均值。

通过pandas绘图分析可以分析出，晚餐（Dinner）比午餐（Lunch）的小费金额多，而且周六，周日的小费金额明显比周四、周五多，如下图

GroupBy对象是可迭代的，其构造为一组二元元祖，如下图

注：GroupBy由分组名和数据片构成。

size方法可以返回各分组的大小，如下图

5.1.2列名分组

在6.1节中，groupby方法使用的分组键为Series。当然，分组键也支持其他的格式，下面的内容中将一一介绍分组键格式和使用方法。DataFrame数据的列索引名称可以作为分组键，如下图

用列索引名称可以作为分组键时，用于分组的对象必须是DataFrame数据本身，否则搜索不到索引名会报错，绘制下图，可以看出吸烟对消费数据的影响不大。

上述方法返回的是多列DataFrame的数据，如果只需要获取tip（小费）列数据，通过索引选取即可。但GroupBy对象也可以通过索引获取tip列，然后再进行聚合运算，他其实相当于语法糖，更好用，如下图

作图可以看出，小费金额基本上与聚餐人数呈正相关，但人数为5时，有下降的趋势。

5.1.3按列表或元组分组

分组键也可以是长度适当的列表或元组，长度适当其实就是要与带分组的DataFrame的行数一样，简单地理解，就是把列表或者元组当成DataFarme的一列，然后按其分组

5.1.4按字典分组

如果按照原始的DataFrame中的分组信息很难确定或者不存在，可通过字典结构，定义分组的信息，如图

5.1.5按函数分组

函数作为分组键的原理类似于字典，通过映射关系进行分组，但是函数分组更加灵活，如下图，通过DataFrame最后一列的数值进行正负分组。

对于层次化索引，可通过级别进行分组，通过level参数，输入编号或名称即可，如下图

当然也可以在列上进行分组（axis=1）如下图

5.2聚合运算

聚合运算就是对分组后的数据进行计算，产生标量值的数据转换过程。本书将讲解常用的聚合函数和自定义聚合函数的用法。

5.2.1聚合函数

前面的例子中使用了部分聚合运算方法，如mean、count、sum函数，如下表所示，为常用的聚合运算方法。

参数	使用说明
count	计数
sum	求和
median	求算数中位数
mean	求平均值
std、var	无偏标准差和方差
min、max	最大值、最小值
prod	求积
first、last	第一个和最后一个值