SQL重复记录识别:ROW_NUMBER()的正确打开方式

先明确一个核心概念:ROW_NUMBER() 这个窗口函数,它本身并不具备“判断重复”的能力。它的本职工作,是按你设定的规则给每一行编个号。真正用来识别重复的,其实是“按特定字段分组后,组内编号大于1”这套组合逻辑。所以,问题的关键从来不是函数本身,而在于你如何通过 PARTITION BY 子句,精准地定义出业务上的“重复标准”。
用 ROW_NUMBER() 标记重复记录的最简逻辑
直接说结论:ROW_NUMBER() 本身不判断重复,它只按规则给行编号;真正识别重复,得靠“对相同字段分组后编号 > 1”的组合逻辑。核心不是函数本身,而是 PARTITION BY 的字段是否覆盖你定义的“重复标准”。
举个例子就明白了。假设你的业务规则是:当 user_id 和 order_date 这两个字段完全一致时,才判定为重复记录。那么,你的 PARTITION BY 后面就必须严格跟上 user_id, order_date。如果你只按 user_id 分组,那么同一个用户的所有订单,无论日期是否相同,都会被编上号——这显然不是你想要的“重复”定义。
PARTITION BY字段:必须严格对应业务中“视为同一重复组”的条件,一个都不能少。ORDER BY子句:它决定了在同一个分组内,哪条记录被优先编号为1。通常我们会用时间戳(如created_at DESC保留最新记录)或主键(如id ASC保留最早记录)来排序。- 编号为1的行:它就是每个重复组里的“代表”。其余编号大于1的行,都是潜在的重复项。但最终是否真的标记为重复或删除,还需要结合具体的业务规则进行二次筛选。
写法示例:标记重复并保留最新一条
这是一个非常常见的场景:找出所有重复记录,但在每一组重复项里,只保留 updated_at 时间戳最新的那一条,其余的都标记为重复。
SELECT
id,
user_id,
order_date,
updated_at,
CASE WHEN rn = 1 THEN 'keep' ELSE 'duplicate' END AS status
FROM (
SELECT
id,
user_id,
order_date,
updated_at,
ROW_NUMBER() OVER (
PARTITION BY user_id, order_date
ORDER BY updated_at DESC, id DESC
) AS rn
FROM orders
) t;
这里有个细节值得注意:ORDER BY updated_at DESC, id DESC。加上 id DESC 是为了防止多条记录的 updated_at 时间戳完全相同,导致排序结果不确定。如果业务上允许任意保留一条,那么只写 ORDER BY updated_at DESC 通常也足够了。
ROW_NUMBER() vs COUNT(*) OVER:选哪个更合适?
除了 ROW_NUMBER(),其实还有另一种思路。如果你的需求仅仅是“知道某一行是否属于某个重复组”,而不关心组内的具体排序,那么 COUNT(*) OVER (PARTITION BY ...) 的写法可能更直观。它的结果直接就是组内的总行数,只要这个数字大于1,就表示该行是重复的。
- 选用
ROW_NUMBER()的场景:当你需要明确的排序、取Top N、或者必须区分出“首条”和“非首条”时。它提供了组内的精确位次。 - 选用
COUNT(*) OVER的场景:当你只做纯粹的“是否重复”判断,且完全不关心组内顺序时。这种写法语义更直白,而且在大数据量下,由于少了一次排序操作,性能可能略优。 - 两者都不能替代
GROUP BY + HA VING:需要明确的是,上面两种窗口函数的方法都是逐行标记。如果你要做的是聚合统计,比如“统计每个重复组有多少条记录”,那还是得用传统的GROUP BY ... HA VING COUNT(*) > 1。
举个例子,如果只是标记状态,可以这样写,更轻量:CASE WHEN COUNT(*) OVER (PARTITION BY user_id, order_date) > 1 THEN 'duplicate' ELSE 'unique' END。
容易踩的坑:NULL 值和数据类型隐式转换
这才是实战中最容易出问题的地方,而且往往很隐蔽。PARTITION BY 子句中的字段如果包含 NULL 值,那么所有 NULL 都会被归为同一组。这经常导致误判。比如,多条 phone 字段为空的记录,会被当作“相同手机号”而错误地标记为重复。
- 显式处理
NULL:可以在分组前进行转换,例如PARTITION BY COALESCE(phone, CONCAT('null_', id)),或者使用CASE WHEN phone IS NULL THEN -1 ELSE phone END,将NULL值转化为一个唯一标识,避免它们被误合并。 - 注意字符串前后空格:对于手机号、邮箱这类字符串字段,肉眼不易察觉的前后空格也会导致分组错误。稳妥的做法是加上
TRIM(phone)再参与分组。 - 警惕隐式类型转换:当参与分组的字段中,既有数字型ID,又有字符串型ID时,数据库可能会进行隐式转换,导致分组逻辑错乱。务必在分组前统一数据类型,例如都转为字符串:
CAST(id AS VARCHAR)。
这些细节通常不会引发SQL报错,但会导致查询结果出现难以察觉的偏差。因此,在上线前,务必使用包含 NULL 值、空字符串和混合数据类型的真实样本进行充分验证。
