pandas, 熊猫对groupby的用法有什么详细解释?不知道小伙伴们今天来看看边肖的分享吧!
在熊猫中,社交领域根据用户画像(性别、年龄)对用户进行细分,对用户使用和偏好的研究主要由groupby完成。
Groupby的基本原则:
在pandas中,分组操作的代码非常简单,只需要一行代码。这里上面的数据集是按照公司字段划分的:in [5]: group=data。分组依据(公司)。
将上述代码输入ipython后,您将获得一个DataFrameGroupBy对象。
In [6]: group
Out[6]: pandas.core.groupby.generic.DataFrameGroupBy object at0x000002B7E2650240
那么这个生成的DataFrameGroupBy是什么呢?groupby on data之后发生了什么?ipython返回的结果是它的内存地址,不利于直观理解。为了了解群体内部的情况,
在这里,组被转换成列表的形式:
In [8]: list(group)
Out[8]:
[(A, company salary age
3 A 20 22
6 A 23 33),
(B, company salary age
4 B 10 17
5 B 21 40
8 B 8 30),
(C, company salary age
0 C 43 35
1 C 17 25
2 C 8 30
7 C 49 19)]
转换成列表后,可以看出列表由三个元组组成。在每个元组中,第一个元素是一个组(这里是按公司分组的,所以最后分为A、B、C),第二个元素是对应组下的一个DataFrame。
整个过程可以说明如下:
总结一下,groupby的流程就是根据groupby(这里是company)的领域,把原来的数据帧分成若干个分组的数据帧,分组的数据帧有多少就有多少。
因此,一系列操作(如agg、apply等。)之后的groupby都是基于子数据帧操作。
pandas,以上就是本文为您收集整理的pandas最新内容,希望能帮到您!更多相关内容欢迎关注。