Pandas 进阶四：数据筛选/分组/聚合，比 Excel 快十倍的操作技巧

时间：2026-04-22 19:47

从筛选到统计：用Pandas进阶技巧，让数据处理效率翻倍掌握了Pandas的基础操作后，面对实际工作中纷繁复杂的数据，你是否感觉还差那么一点“精准控制”的能力？比如，从海量记录中快速捞出目标数据、按照不同维度进行归类统计、一键生成多维度的汇总报表……这些在Excel里需要反复点击鼠标、嵌套公式的繁

从筛选到统计：用Pandas进阶技巧，让数据处理效率翻倍

掌握了Pandas的基础操作后，面对实际工作中纷繁复杂的数据，你是否感觉还差那么一点“精准控制”的能力？比如，从海量记录中快速捞出目标数据、按照不同维度进行归类统计、一键生成多维度的汇总报表……这些在Excel里需要反复点击鼠标、嵌套公式的繁琐操作，恰恰是Pandas大显身手的舞台。

今天，我们就来深入三个核心的进阶技能：数据筛选、数据分组和数据聚合。全程围绕一个模拟的“电商订单数据”场景展开，确保你看得懂、学得会、跟着代码跑一遍就能上手。

一、先准备测试数据

光说不练假把式。为了让大家有最直观的感受，我们直接生成一份模拟的电商订单数据，里面包含了订单号、用户、商品类别、金额、时间等典型字段。运行下面这段代码，你的实战数据集就有了：

import pandas as pd
import numpy as np

# 生成测试数据（共10条订单记录）
data = {
    '订单号': ['OD001', 'OD002', 'OD003', 'OD004', 'OD005', 'OD006', 'OD007', 'OD008', 'OD009', 'OD010'],
    '用户ID': ['U001', 'U002', 'U001', 'U003', 'U002', 'U001', 'U003', 'U004', 'U004', 'U002'],
    '商品类别': ['电子产品', '服装', '电子产品', '食品', '服装', '食品', '电子产品', '服装', '食品', '电子产品'],
    '消费金额': [2999, 599, 1599, 199, 899, 299, 3999, 499, 399, 1299],
    '支付时间': pd.date_range('2024-01-01', periods=10, freq='D'),
    '是否好评': [True, False, True, True, False, True, False, True, True, False]
}
df = pd.DataFrame(data)
print("测试数据：")
print(df)

运行后会得到一个清晰的DataFrame表格，接下来所有的操作都将基于这份数据展开，你可以随时复制代码进行验证。

二、数据筛选：精准挑出你要的记录

筛选，说白了就是从表格里“捞”出符合条件的行。这就像在Excel里使用筛选功能，但Pandas的语法更灵活、表达能力更强。比如，“找出所有消费超过1000元的大单”或者“筛选出电子产品类的好评订单”，都只需一行代码。

1. 单条件筛选（基础款）

基本语法是 df[df[‘列名’] 条件表达式]。举个例子，想要所有消费金额大于1000的订单，代码是这样：

# 筛选消费金额>1000的订单
high_amount_orders = df[df['消费金额'] > 1000]
print("消费金额>1000的订单：")
print(high_amount_orders)

看，符合条件的记录瞬间就被提取出来了。同样的思路，筛选特定商品类别或者某个日期之后的订单，举一反三即可：

clothes_orders = df[df['商品类别'] == '服装']  # 注意这里是双等号==
recent_orders = df[df['支付时间'] > '2024-01-05']

2. 多条件筛选（实用款）

真实场景很少只有一个条件。通常我们需要“且”或者“或”的逻辑组合。这里要记住两个关键符号：& 表示“且”，| 表示“或”。注意，每个条件都需要用括号括起来。

比如，想找“商品是电子产品且消费超过2000”的订单：

# 多条件（且）筛选
high_electronics = df[(df['商品类别'] == '电子产品') & (df['消费金额'] > 2000)]
print("电子产品且消费金额>2000的订单：")
print(high_electronics)

再比如，想找“用户是U001或者订单给了好评”的记录：

# 多条件（或）筛选
u001_or_good = df[(df['用户ID'] == 'U001') | (df['是否好评'] == True)]
print("用户U001或好评的订单：")
print(u001_or_good)

这里有个新手常踩的坑：多条件连接必须用 & 和 |，而不是Python关键字 and/or。记住这一点，能避免很多奇怪的报错。

三、数据分组：按类别归类（groupby核心）

分组是数据分析的灵魂。它的作用是将数据按照某个或某几个字段的类别拆分开，相当于Excel数据透视表里的“行标签”。拆分之后，我们就能对每个小组进行单独分析。

1. 基础分组：按单个字段分组

最直接的，按“商品类别”分组，看看每个品类有多少订单：

# 按商品类别分组，统计每组的订单数量
category_count = df.groupby('商品类别').size()
print("各商品类别的订单数量：")
print(category_count)

分组本身并不产生具体结果，它返回的是一个“分组对象”。必须结合聚合函数（比如size()计数、sum()求和），才能得到我们想要的计算值。再比如，计算每个用户的总消费金额：

# 按用户ID分组，计算每组的消费金额总和
user_total = df.groupby('用户ID')['消费金额'].sum()
print("各用户的总消费金额：")
print(user_total)

2. 按多个字段分组

如果想看得更细，可以进行多级分组。例如，同时按照“商品类别”和“是否好评”分组，计算每个组合的平均消费金额：

# 按“商品类别+是否好评”双字段分组，计算平均消费金额
category_rating_a vg = df.groupby(['商品类别', '是否好评'])['消费金额'].mean()
print("各商品类别+好评状态的平均消费金额：")
print(category_rating_a vg)

结果会清晰地展示出每个细分群体的状况。如果某个组合没有数据（比如食品类没有差评订单），则会显示为NaN，这非常合理。

三、数据聚合：对分组后的数据计算（常用聚合函数）

分组之后，就要算账了。聚合就是对各个分组进行统计计算，比如求和、平均、最大值、最小值等。Pandas提供了一整套聚合函数，日常掌握几个最常用的就够了。

1. 实战：多聚合函数一起用

一个强大的功能是，可以一次性对同一个分组计算多个指标。比如，按商品类别分组，同时计算订单数、总金额、平均金额和最高金额：

# 按商品类别分组，对消费金额列同时应用多个聚合函数
category_agg = df.groupby('商品类别')['消费金额'].agg(
    订单数='size',
    总消费金额='sum',
    平均消费金额='mean',
    最高消费金额='max'
).reset_index() # 重置索引让表格更美观
print("各商品类别的聚合统计：")
print(category_agg)

看看这个结果，是不是像极了一个功能完善的数据透视表？而这在Excel里可能需要插入好几列公式，在Pandas里却是一行代码的事。

四、综合实战：筛选+分组+聚合

现在，我们把前面学的技能串起来，解决一个实际的业务问题：“分析2024年1月5日之后各商品类别的好评情况，包括订单数、好评数和好评率”。

思路拆解：先按时间筛选，再按类别分组，最后在组内进行统计和计算。

# 1. 筛选2024-01-05之后的订单
filtered_df = df[df['支付时间'] > '2024-01-05']

# 2. 按商品类别分组，统计好评数和总订单数
agg_result = filtered_df.groupby('商品类别')['是否好评'].agg(
    总订单数='size',
    好评数=lambda x: (x == True).sum()  # 使用lambda自定义函数统计True的个数
)

# 3. 计算好评率（保留2位小数）
agg_result['好评率'] = (agg_result['好评数'] / agg_result['总订单数']).round(2)

# 4. 重置索引
agg_result = agg_result.reset_index()
print("2024-01-05后各商品类别的好评统计：")
print(agg_result)

通过这样一个完整的流程，从原始数据到清晰的业务洞察，几步就完成了。这种将复杂问题分解为“筛选-分组-聚合”流水线式处理的能力，正是Pandas高效性的体现。

五、新手必记：核心语法速查表

六、总结

走完这一趟，我们其实已经掌握了用Pandas进行日常数据分析的核心链路：

数据筛选让你能精准定位目标数据；数据分组为你提供了观察数据的不同维度视角；数据聚合则负责将分组后的洞察转化为具体的统计数字。

这三个技能的组合，足以应对绝大多数报表生成、数据汇总和初步分析的场景。其效率和灵活性远超手动操作，一旦熟练掌握，你处理数据的方式将彻底改变。剩下的，就是多练习，把这些代码变成你的肌肉记忆。

来源：https://www.51cto.com/article/834809.html

操作技巧

上一篇2026年值得考虑的十大物联网工具 下一篇SQLGlot，一个气势恢宏的 Python 库！

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

业界动态 · 2026-06-29

长安汽车明年一季度发布首款车载人形机器人小安

长安汽车公布机器人战略，采用“1+N+X”布局，联合头部伙伴攻克大脑、能源、驱动技术。人形机器人“小安”身高169cm，体重69kg，移动速度0 8m s，具备40个自由度，续航超2小时。预计明年一季度发布首款车载组件机器人，已在广州车展展示。

业界动态 · 2026-06-29

中国信科刷新光通信世界纪录每秒可下载1.4万部4K电影

3月25日，光通信领域迎来又一个里程碑：中国信科集团光通信技术和网络全国重点实验室联合鹏城实验室、烽火藤仓光纤科技有限公司，成功实现了2 5Pb s 24芯光纤超大容量实时光传输，再次刷新了世界纪录。这一研究成果不仅入选国际顶级光通信会议OFC（2026）并荣获“高分论文”称号，还受国际权威SCI

业界动态 · 2026-06-29

美国调查18万辆特斯拉Model3车门应急释放装置易找性

美国国家公路交通安全管理局对约17 9万辆2024款特斯拉Model3启动缺陷调查，焦点在于车门应急释放装置是否不易找到且标识不清。该调查源于一份缺陷请愿，不意味着立即召回，但可能引发后续监管措施。

业界动态 · 2026-06-29

doc个人图书馆停服创始人称无偿转让失败

运营长达20年，累计服务8000万用户的360doc个人图书馆，最终还是迎来了谢幕时刻。2026年5月1日，这个承载着无数用户收藏记忆的知名平台将正式停止服务——关停原因并非用户流失，而是始终未能寻得一位能够安全接管的合适人选。创始人蔡智在告别信中坦言，近两个月来，他一直在尝试将360doc无偿转

业界动态 · 2026-06-29

年Q1随身WiFi实测安全靠谱高性价比机型推荐

2025年10月，艾瑞咨询正式授予飞猫“AI WiFi品类开创者”认证，紧接着CIC也将其认定为“多网融合自由切换技术服务首创者”。这些权威认证背后，折射出一个清晰的市场趋势：移动办公、户外出行、宿舍上网等场景的需求正在快速增长，随身WiFi几乎已成为不少用户的刚需装备。但问题也随之而来——网络卡顿