怎样在SQL存储过程中删除重复数据_利用CTE与ROW_NUMBER函数实现

时间：2026-04-28 19:39

用CTE+ROW_NUMBER()删除重复数据最稳妥，通过PARTITION BY定义重复组、ORDER BY指定保留行（如最小id），避免GROUP BY在DELETE中不支持及NULL分组等问题。说到在数据库里清理重复数据，CTE 配合 ROW_NUMBER() 这个组合，可以说是最稳妥、最精

用CTE+ROW_NUMBER()删除重复数据最稳妥，通过PARTITION BY定义重复组、ORDER BY指定保留行（如最小id），避免GROUP BY在DELETE中不支持及NULL分组等问题。

说到在数据库里清理重复数据，CTE 配合 ROW_NUMBER() 这个组合，可以说是最稳妥、最精准的方案了。它能明确地告诉你每组数据里保留哪一条，而且完全不依赖表里有没有唯一键。

为什么不能直接 DELETE 加 GROUP BY？

很多朋友第一个念头可能是用 GROUP BY 分组后直接删，但这条路在 SQL Server 和大多数主流数据库里是走不通的。数据库引擎会直接报错：Incorrect syntax near the keyword 'GROUP'。原因很简单，DELETE 语句的设计就不支持直接使用 GROUP BY 或聚合函数。那怎么办呢？这时候 CTE（公用表表达式）就派上用场了。它相当于创建了一个临时的、可更新的逻辑视图，让我们能把 ROW_NUMBER() 计算出来的序号，直接用在 DELETE 操作上。

ROW_NUMBER() 必须配合 PARTITION BY 和 ORDER BY

光写一个 ROW_NUMBER() OVER () 是没意义的，它只会给全表所有行编个流水号（1, 2, 3...），根本区分不开哪些是重复组。真正的精髓在于后面两个子句：

PARTITION BY col1, col2：这个子句定义了“什么叫重复”。你把哪些列放进来，系统就按这些列的值是否完全相同来分组。
ORDER BY id ASC：这个子句决定了在每一组重复数据里，你打算留下哪一条。通常我们会按主键 id 升序排，保留最小的那条，或者按时间戳排序，保留最新或最旧的那条。

来看一个经典例子：删除 users 表中 email 地址重复的记录，只保留 id 最小的那一条。

WITH dup AS (
  SELECT id, email,
         ROW_NUMBER() OVER (PARTITION BY email ORDER BY id) AS rn
  FROM users
)
DELETE FROM dup WHERE rn > 1;

执行前务必加事务和验证

上面这条语句是动真格的，执行了数据就没了。所以动手之前，有几个常见的坑必须绕开：

排序方向搞反了：如果你本意是留旧删新，却写了 ORDER BY id DESC，那结果就是留新删旧，完全反了。
忽略了 NULL 值：在 SQL 的世界里，NULL = NULL 的结果是未知（false）。这意味着，如果 PARTITION BY 的列里有多个 NULL，它们不会被归为同一组。如果你的业务认为 NULL 也应该被视为相同值，就需要先用 ISNULL(email, '') 之类的函数处理一下。
忘了先预览：在执行 DELETE 前，务必把 DELETE FROM dup WHERE rn > 1 换成 SELECT * FROM dup WHERE rn > 1 跑一遍，看看即将被删除的到底是哪些数据。
生产环境裸奔：在生产数据库操作，一定要套上事务：BEGIN TRAN; ... (你的DELETE语句) ...; ROLLBACK;。先回滚检查，确认无误后再 COMMIT。

替代方案对比：临时表 or GROUP BY + 子查询？

当然，市面上也有其他方法。比如，有人会用临时表：先 SELECT MIN(id) INTO #keep FROM t GROUP BY cols 找出要保留的ID，再 DELETE WHERE id NOT IN (SELECT id FROM #keep)。但这个方法隐患不少：

如果原表没有主键，或者 id 本身就不唯一，MIN(id) 选出来的可能并不是你想保留的那行。
使用 NOT IN 时，如果子查询结果集里包含 NULL，那么整个条件会直接返回空，导致 DELETE 语句静默失效，一条都删不掉。
相比之下，CTE 的方案逻辑更集中，原子性更强，执行计划也通常更清晰可控。

说到底，技术实现本身并不复杂。真正的难点往往在于前期的业务确认：到底“哪些列组合起来算重复”？以及“重复了以后，究竟按什么规则保留哪一条”？这两个问题，必须和产品或业务负责人掰扯清楚。代码，只是最终执行这些规则的工具罢了。

来源：https://www.php.cn/faq/2384337.html

其他

上一篇mysql如何检查数据库中是否存在无密码或弱密码账号_执行安全扫描查询 下一篇为什么SQL关联查询结果集比主表小_排查INNER_JOIN过滤掉的未匹配项

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

数据库 · 2026-07-02

Redis 7.0增量AOF重写RDB前导码配置详解

先说一个几乎所有人都踩过的典型误区：很多人把 aof-use-rdb-preamble yes 当作开启“增量重写”的开关。实际上，这个配置只干了一件事——让重写后的 AOF 文件头部带上 RDB 快照。它解决的是加载速度问题，跟“增量重写”本身的概念压根不是一回事。真正的增量重写，依赖的是 Red

数据库 · 2026-07-02

在Python Tornado异步框架中安全执行SQL命令的方法与最佳实践

直接在Tornado里用SQLAlchemy同步执行SQL，结果就是阻塞IOLoop，所谓“异步框架里写同步数据库代码”，等于白搭。安全执行的关键不是“怎么写SQL”，而是“怎么不卡住事件循环”。为什么不能在RequestHandler里直接调用session execute() 因为sessio

数据库 · 2026-07-02

利用SQL触发器实现在INSERT数据时自动同步到审计表

先说结论：可以用触发器把 INSERT 数据同步到审计表，但必须用 AFTER INSERT，并且审计表的字段顺序、类型、字符集得和源表严格一致。否则，轻则写入错位、数据截断，重则直接报错、丢数据。下面把这些坑一个一个掰开说。能，但必须用 AFTER INSERT，且审计表字段顺序、类型、字符集要

数据库 · 2026-07-02

如何用SQL编写按不同工作日统计员工出勤率

在实际业务中，统计不同工作日的出勤率是HR系统里的高频需求。如果直接按日期函数分组，很容易掉进语言环境、索引失效或分母口径的坑里。下面就来拆解具体的实现要点。必须用 CASE WHEN 将日期映射为固定 weekday 标签（如 Mon ）再分组，避免语言环境导致的分组断裂；需过滤 DOW IN

数据库 · 2026-07-02

Spring Boot 3动态拼接SQL为何引发严重安全漏洞

SQL注入漏洞的核心成因，本质上是因为用户输入直接参与了SQL语句的字符串拼接，而未采用参数化绑定机制。在MyBatis中使用${}、QueryWrapper中调用apply()与last()、JPA的@Query注解进行拼接等操作，都会绕过PreparedStatement的安全防护。动态字段必须