SQL如何实现分组后的中位数统计_PERCENTILE窗口函数
要算分组后的中位数,优先用PERCENTILE_CONT(0.5),因其返回插值结果(真正数学中位数),而PERCENTILE_DISC(0.5)仅返回实际存在的某个值;二者均需配合OVER(PARTITION BY...ORDER BY...)使用,不支持纯GROUP BY语法。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
PERCENTILE_CONT 和 PERCENTILE_DISC 的核心区别
先说结论:计算分组中位数,PERCENTILE_CONT(0.5)通常是更优的选择,而不是PERCENTILE_DISC(0.5)。原因很简单,前者能给出数学意义上的“真”中位数,因为它会进行插值计算;后者则比较“实在”,只返回数据集里实际存在的某个值,这可能导致结果出现偏差。
举个例子就明白了。假设某个分组的数据是 [1, 3, 5, 7]。用PERCENTILE_CONT(0.5)算,它会取中间两个数3和5的平均值,返回4.0。而PERCENTILE_DISC(0.5)呢?它只会老老实实地返回排序后处于中间位置的那个值,也就是3。哪个更符合你对“中位数”的直觉?显然是前者。
- 使用这两个函数时,排序的列不能包含
NULL值,否则含有NULL的行会被直接忽略。 - 它们都属于窗口函数,必须配合
OVER (PARTITION BY ... ORDER BY ...)子句使用。想用纯GROUP BY聚合的写法是行不通的,直接报错。 - 支持情况方面,PostgreSQL、Oracle、SQL Server(2012及以上版本)以及Snowflake都支持。但MySQL用户得注意了,截至目前(8.0版本),它还不支持这两个函数。
在 GROUP BY 场景下正确调用 PERCENTILE_CONT
很多朋友容易在这里踩坑:想按部门分组计算薪资中位数,下意识就写成了类似SELECT dept, PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY salary) FROM emp GROUP BY dept的语句。这其实是PostgreSQL或Oracle里的一种聚合函数语法,并非通用的窗口函数写法,而且并非所有数据库都支持。
更通用、跨平台的写法是利用窗口函数:
SELECT DISTINCT dept, PERCENTILE_CONT(0.5) OVER (PARTITION BY dept ORDER BY salary) AS median_salary FROM emp;
这里有个关键点:DISTINCT是必须的。因为窗口函数会为原始表的每一行都计算并返回一个值,同一个部门内所有行的中位数结果是一样的,不去重的话,你会得到重复的多行。用DISTINCT压缩一下,每个部门就只剩一行清晰的结果了。
- 当然,如果你的业务场景需要保留每一行原始数据,同时附带上该组的中位数(比如后续要做薪资离差分析),那就别加
DISTINCT,直接把窗口函数作为一列计算即可。 ORDER BY子句是强制性的,而且通常只允许一个排序表达式。试图用多列排序(比如ORDER BY salary, id)可能会导致结果不稳定,尤其在薪资有重复值的时候。- 不同数据库对数据类型有要求,比如在BigQuery里,
PERCENTILE_CONT的ORDER BY列必须是数值或日期类型,用字符串会直接报错。
MySQL 用户的替代方案:用 ROW_NUMBER 模拟中位数
对于还在使用MySQL 8.0的朋友,虽然没有原生PERCENTILE_CONT,但完全可以利用ROW_NUMBER()和COUNT(*)这两个窗口函数来手动定位中位数。
WITH ranked AS (
SELECT
dept,
salary,
ROW_NUMBER() OVER (PARTITION BY dept ORDER BY salary) AS rn,
COUNT(*) OVER (PARTITION BY dept) AS cnt
FROM emp
)
SELECT
dept,
A VG(salary) AS median_salary
FROM ranked
WHERE rn IN (FLOOR((cnt + 1) / 2), CEIL((cnt + 1) / 2))
GROUP BY dept;
这个逻辑巧妙地覆盖了数据量为奇数和偶数的两种情况:奇数行时,取最中间的那一个数;偶数行时,取中间两个数的平均值。
- 务必记得用
A VG()函数包裹最终结果。如果不这么做,当数据量为偶数时,查询会返回两行数据,而不是一个平均值。 - 公式里的
FLOOR和CEIL在计数(cnt)为1时,都会返回1,确保了边界情况的安全性。 - 性能上,这种模拟方法肯定比不上数据库原生的
PERCENTILE_CONT函数。如果数据量很大,建议在(dept, salary)上建立复合索引来加速。
容易被忽略的 NULL 和数据类型陷阱
中位数计算对NULL值特别敏感——默认情况下,PERCENTILE_CONT会直接跳过NULL。但问题来了,如果你的业务逻辑里,NULL代表“薪资未发放”,并且你希望这些记录参与排序(比如把它们视为最小值),那就需要提前处理。
- 把NULL当最小值处理:可以使用
ORDER BY COALESCE(salary, -999999)。不过要小心,替换的值必须与原始列的数据类型匹配。 - 把NULL当最大值处理:在PostgreSQL或Oracle中,可以用
ORDER BY salary DESC NULLS LAST。但请注意,NULLS LAST这个语法并非所有数据库都支持。 - 例如在SQL Server中,不支持
NULLS LAST,就需要变通一下,写成:ORDER BY CASE WHEN salary IS NULL THEN 1 ELSE 0 END, salary。 - 数据类型也会捣乱。在BigQuery中,
PERCENTILE_CONT对整型(INT64)和浮点型(FLOAT64)的返回类型不同:如果输入是整型,结果也会被截断为整型。为了避免精度损失,建议显式转换:CAST(salary AS FLOAT64)。
说到底,中位数并不是一个“开箱即用”的统计指标。它的具体行为高度依赖于数据库的实现细节以及你对数据分布的预先假设。有个非常实用的建议:在编写复杂的中位数查询之前,不妨先执行一句SELECT * FROM emp WHERE dept = 'xxx' ORDER BY salary,亲眼看一下目标分组内数据的真实排序情况。很多时候,这比反复查阅文档能更快地帮你定位问题所在。
相关攻略
要算分组后的中位数,优先用PERCENTILE_CONT(0 5),因其返回插值结果(真正数学中位数),而PERCENTILE_DISC(0 5)仅返回实际存在的某个值;二者均需配合OVER(PARTITION BY ORDER BY )使用,不支持纯GROUP BY语法。 PERCENTI
焕新上市:别克世纪CENTURY,如何定义中式超豪华MPV新标杆? 4月28日,上汽通用别克旗下超豪华旗舰MPV——世纪CENTURY正式迎来焕新上市。此次新车共推出两款配置:七座礼遇版与四座礼尊版,官方指导价分别为53 99万元与69 99万元。显然,别克意在继续巩固其在高端MPV市场的旗舰地位,
SQL查询如何实现分组内的百分比排名:使用PERCENT_RANK函数 PERCENT_RANK函数返回什么值,为什么不是100%制 很多朋友第一次用PERCENT_RANK()时,可能会下意识地期待一个0到100的百分比数字。其实不然,这个函数计算的是「当前行在分组内的相对位置比例」,公式是(ra
SQL分组中位数计算:避开PERCENTILE_CONT的那些“坑” 说到在SQL里计算分组中位数,PERCENTILE_CONT函数绝对是首选利器。但工具好用,不等于用起来就顺手。不少朋友照着语法写,结果却报错或者算出个莫名其妙的值,问题往往出在细节上。今天咱们就来聊聊,怎么把这个函数用得既稳当又
热门专题
热门推荐
滚筒洗衣机内桶最彻底的清洁方式 想给滚筒洗衣机内桶来一次真正彻底的清洁?答案只有一个:规范拆解,进行物理级的深度清洗。这可不是简单扔两包清洁剂就能搞定的事,它需要一套严格的技术流程——从断电断水开始,到分步拆卸、精准复装,每一步都马虎不得。核心步骤是:先拆外壳和前封板,再处理门锁和外筒固定结构,接着
OPPO Reno11系列ColorOS 15 0正式版升级指南与体验解析 好消息来了!OPPO Reno11系列,包括Reno11 5G和Reno11 Pro 5G,现在已经可以升级到ColorOS 15 0正式版了。官方已经为符合条件的用户开放了“新版本尝鲜”通道。不过,升级前有个硬性门槛:你的
老年助听器的安装:一套始于专业、终于适应的科学闭环 很多人以为,给老人戴上助听器,就像戴上一副老花镜那么简单。其实不然。一套真正有效的助听方案,远不止“开机出声”这么简单,它是一套环环相扣的科学流程:从专业的听力验配开始,到个体化的设备适配,再到循序渐进的听觉适应,三者缺一不可。这个过程,始于持证听
以太坊7月收益减半怎么算 先说一个核心结论:即将到来的以太坊收益减半,其核心逻辑在于验证者从每个区块中获得的基础共识奖励,将被直接砍掉一半。当然,这并非简单的“腰斩”,因为最终落到个人口袋里的年化收益率,是基础奖励、全网质押总量、Gas费以及MEV(最大可提取价值)收益共同作用的结果。综合来看,个人
在CentOS系统上实现Python数据分析 想在CentOS服务器上搭建一套高效、稳定的Python数据分析环境?对于许多开发者和数据团队而言,在Linux生产环境中部署数据分析平台是常见需求。本文将提供一份经过验证的、从零开始的详细配置指南,帮助您在CentOS系统上快速构建专业的Python数





