SQL如何对数据进行分组统计？GROUP BY聚合函数应用

时间：2026-04-25 19:31

SQL如何对数据进行分组统计？GROUP BY聚合函数应用说到数据分组统计，GROUP BY绝对是绕不开的核心。但你真的用对了吗？先记住一个核心原则：GROUP BY必须与聚合函数配合使用，非聚合字段须出现在GROUP BY子句中或包裹于聚合函数内；HA VING用于分组后过滤，WHERE用于分组

SQL如何对数据进行分组统计？GROUP BY聚合函数应用

说到数据分组统计，GROUP BY绝对是绕不开的核心。但你真的用对了吗？先记住一个核心原则：GROUP BY必须与聚合函数配合使用，非聚合字段须出现在GROUP BY子句中或包裹于聚合函数内；HA VING用于分组后过滤，WHERE用于分组前过滤；多字段分组按顺序影响语义，NULL值在分组中被视为同一组。

GROUP BY 必须和聚合函数一起用，单独写会报错

直接写 SELECT name FROM users GROUP BY city 会怎么样？在大多数现代数据库（比如 MySQL 8.0+、PostgreSQL、SQL Server）里，这条语句会直接报错，提示你 column “name” must appear in the GROUP BY clause or be used in an aggregate function。道理很简单：分组之后，每个城市对应的name可能有好几个，数据库引擎根本不知道该返回哪一个给你。

所以，正确的做法是：所有没被聚合的字段，要么老老实实放进GROUP BY子句，要么就包裹在聚合函数里。来看几个例子：

SELECT city, COUNT(*) FROM users GROUP BY city ✅ 清晰明了，统计每个城市的人数。
SELECT city, MAX(age), A VG(salary) FROM users GROUP BY city ✅ 找出每个城市里最年长的员工和平均薪资。
SELECT city, name FROM users GROUP BY city ❌ 这是个典型的错误写法。虽然在MySQL 5.7的某些兼容模式下可能“侥幸”执行，但返回的结果往往是不可靠的，可能只随机返回每组中的一条name，千万别依赖这种行为。

HA VING 用来过滤分组结果，WHERE 不能替代它

这是另一个高频混淆点。WHERE和HA VING虽然都用于过滤，但执行的时机完全不同：WHERE在分组之前过滤行，而HA VING在分组之后过滤组。如果你想找出“用户数超过5个的城市”，直接写WHERE COUNT(*) > 5是行不通的——因为WHERE执行时，COUNT(*)这个聚合结果还没计算出来呢，数据库会直接报错 aggregate function calls cannot be used in WHERE。

实际工作中，记住这个流程：

先用WHERE把不需要的数据筛掉（比如WHERE status = ‘active’），这样能减少后续分组计算的数据量，提升性能。
再用GROUP BY进行分组。
最后用HA VING对聚合后的结果进行筛选（比如HA VING COUNT(*) >= 5）。

另外，HA VING子句里可以使用字段的别名，但要注意数据库的兼容性。比如在MySQL中，你可能需要给别名加上反引号，或者干脆直接使用原始的聚合表达式更保险。

来看一个完整的示例：

SELECT city, COUNT(*) AS user_cnt
FROM users
WHERE deleted = 0
GROUP BY city
HA VING COUNT(*) > 5;

多字段分组要注意顺序和组合语义

当需要按多个维度分组时，比如GROUP BY a, b，字段的顺序会影响分组的“主次”语义，尽管最终的数据分组结果是一样的。把a放在前面，意味着先按a进行主要分组，再在每个a组内按b细分，这通常和后续的ORDER BY a, b排序逻辑更匹配。

更关键的是，多字段分组会产生笛卡尔式的分组桶。这里有几个常见的“坑”：

别指望GROUP BY gender, city会自动补全所有可能的组合。如果某个城市没有女性用户，那么结果集中就不会出现“该城市-女性”这一行。它只返回实际存在数据的组合。
在做报表时，如果需要展示“所有城市 × 所有性别”的完整矩阵（即使计数为0），光靠GROUP BY是做不到的。通常的解决方案是用CROSS JOIN生成所有组合，再通过LEFT JOIN关联实际数据来统计。
注意字段的一致性。如果city字段是VARCHAR类型，里面混有尾部空格或者大小写不一致（比如‘Beijing ’和‘beijing’），它们会被当成两个完全不同的组，这往往是数据清洗不到位导致的。

NULL 值在 GROUP BY 中被当作同一组处理

这个特性非常关键，却容易被忽略：在分组时，所有的NULL值会被视为彼此相等，从而归入同一个组。举个例子，执行SELECT department, COUNT(*) FROM staff GROUP BY department，所有部门为NULL的员工记录会被合并成一行，在结果中department列显示为NULL。

如果你需要区分“部门明确为空”和“部门信息未录入”这两种情况，就必须在分组前对数据进行处理：

使用CASE表达式：CASE WHEN department IS NULL THEN ‘UNKNOWN’ ELSE department END，将NULL转换成一个有意义的标记再分组。
或者使用COALESCE(department, ‘MISSING’)函数，达到同样的效果。
需要特别提醒的是：GROUP BY会把所有NULL分到一组，但空字符串‘’和NULL是两种不同的值，它们会被分到不同的组里。

理解这个行为对于数据质量检查至关重要。报表里那个“NULL组”的数量，很可能掩盖了背后多种原因造成的脏数据问题，需要你进一步下钻分析。

来源：https://www.php.cn/faq/2306355.html

ROUP

上一篇如何用SQL快速实现排名占比计算_SUM与OVER组合 下一篇如何处理SQL中的枚举值_使用CASE WHEN实现映射转换

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

数据库 · 2026-07-01

MyBatis Hive多表关联实现方法

MyBatis处理Hive多表关联查询与普通数据库类似。需准备映射文件，使用association和collection标签定义关联；创建Java实体类包含集合成员变量承接一对多关系；编写Mapper接口声明查询方法；配置MyBatis环境注册映射；最后通过SqlSession调用即可获取关联数据。