SQL怎样在分组后对字符串进行去重拼接_使用ARRAY_AGG去重
SQL怎样在分组后对字符串进行去重拼接_使用ARRAY_AGG去重

ARRAY_AGG(DISTINCT ...) 是最直接的去重拼接方式
说到在PostgreSQL里分组后对字符串进行去重拼接,ARRAY_AGG(DISTINCT ...)无疑是首选方案。从PostgreSQL 10版本开始,这个功能就得到了原生支持。它的优势非常明显:语法极其简洁,性能表现优秀,最关键的是,它完美契合了“分组、去重、聚合成数组”这一系列连贯需求,无需再借助子查询或数组展开这些“曲线救国”的手段。
不过,直接使用DISTINCT时,有几个细节值得特别注意。一个常见的疏忽是排序问题。比如,你可能会这样写:ARRAY_AGG(DISTINCT tag ORDER BY tag)。看起来没问题,对吧?但如果tag字段里包含了NULL值,默认的排序规则会把NULL排在最前面,这很可能打乱你的业务预期。正确的做法是显式指定NULLS LAST:
ARRAY_AGG(DISTINCT tag ORDER BY tag NULLS LAST)- 另外,如果字段是文本类型且可能包含首尾空格,建议先用
trim(tag)处理再去重,否则像'VIP'和'VIP '这样的值会被视为两个不同的条目。 - 最后,请务必记住:如果不加
ORDER BY子句,聚合结果的顺序是不确定的。即使源数据看起来有序,数据库也不保证ARRAY_AGG的输出顺序。
为什么不用 STRING_AGG(DISTINCT ...) 直接拼接?
你可能会问,STRING_AGG不也支持DISTINCT吗?比如STRING_AGG(DISTINCT tag, ','),直接输出一个用逗号连接的字符串,岂不是更省事?
这里的关键在于后续处理能力。STRING_AGG的输出是“死”的字符串,一旦生成,就很难再被结构化地处理。而ARRAY_AGG(DISTINCT ...)返回的是鲜活的数组类型,这为后续计算打开了无限可能。你可以立刻调用array_to_string将其转为字符串,用array_length统计元素个数,或者通过下标(如(arr)[1])直接取出特定位置的元素。
来看几个典型场景:
- 需要同时获得去重后的标签字符串和标签数量:
array_to_string(ARRAY_AGG(DISTINCT tag), ',')和array_length(ARRAY_AGG(DISTINCT tag), 1) - 想取优先级最高的那个标签作为主标签:
(ARRAY_AGG(DISTINCT tag ORDER BY priority DESC))[1] - 后续计划在应用层(比如用Python的
json.loads)反序列化数据——数组格式比单纯的逗号分隔字符串要结构化得多,处理起来也更方便。
遇到 GROUP BY 字段多、去重逻辑复杂怎么办?
现实情况往往更复杂。当去重规则需要基于多个字段的组合(例如,必须(user_id, tag, source)三者完全相同才算重复),或者需要按照业务优先级进行过滤(比如优先保留source = 'system'的标签,其次才考虑'manual'的)时,简单的DISTINCT关键字就力不从心了。
这时候,正确的思路是把去重逻辑“上推”到输入层。也就是说,先通过CTE(公共表表达式)或子查询,把数据预处理干净。常用的方法包括:
- 使用
SELECT DISTINCT ON (user_id, tag) *,按照业务规则为每组重复项只保留一行。 - 或者,利用窗口函数
ROW_NUMBER() OVER (PARTITION BY user_id, tag ORDER BY CASE source WHEN 'system' THEN 1 ELSE 2 END)来标记每一行的优先级。
完成这步预处理之后,再对外层的结果集调用ARRAY_AGG(tag)。此时输入数据已经是去重后的状态,聚合函数里自然也就不需要再加DISTINCT了。试图在ARRAY_AGG内部嵌套UNNEST、DISTINCT和ARRAY构造来强行实现复杂去重,是一条弯路,不仅性能差,可读性也低,除非是为了兼容极老的数据库版本,否则不建议采用。
Greenplum 或旧版 PostgreSQL 不支持 DISTINCT 怎么办?
好在,大部分现代版本的Greenplum(6.x及以上)已经支持ARRAY_AGG(DISTINCT ...)了。但如果确实遇到了不支持的环境(比如Greenplum 5.x或非常老的PostgreSQL),也有一条可靠的备用路径:通过子查询先行去重。
具体写法如下:SELECT user_id, ARRAY_AGG(tag) AS tags FROM (SELECT DISTINCT user_id, tag FROM user_tags) t GROUP BY user_id;
采用这种方法时,有两点需要牢记:
- 子查询的
SELECT列表中必须包含外层GROUP BY的所有字段(本例中是user_id),否则外层分组时会报错。 - 如果还需要对结果排序,可以在子查询里加入
ORDER BY user_id, tag。但要注意,PostgreSQL并不保证子查询中的排序能传递到外层的聚合函数中。最稳妥的做法,是在外层的ARRAY_AGG中再次明确指定ORDER BY tag。
这种写法的优点是兼容性极佳,几乎能在所有支持数组聚合的数据库上运行。但缺点也很明显:执行计划中多了一层嵌套循环,当数据量很大时,其I/O和内存开销会显著高于原生支持DISTINCT的聚合方式。
相关攻略
为避免代码丢失,Qoder编辑器需手动开启自动保存功能。全局设置中可开启开关并选择触发条件,如按时间间隔或窗口失去焦点时保存。还可为特定项目单独配置,覆盖全局设置。若功能失效,需检查文件位置是否只读、用户权限是否足够,并避免直接编辑受保护的系统文件。
想要体验《大刀客》却找不到官方下载渠道?别担心,获取最新、最准确的游戏测试信息是成功的第一步。领先他人一步获取游戏资源,就能在开服第一时间畅享战斗快感。那么,如何安全下载《大刀客》2024年安卓最新版本呢?本文将为你详细介绍两种最可靠的下载途径,助你轻松开启江湖征程。 方法一:通过九游《大刀客》官方
优化Codex使用效率有三个关键措施:启用Memory功能以固化高效工作流;全面采用CLI替代MCP来降低资源占用与Token消耗;通过本地脚本实现Token成本可视化监控。这些方法共同减少了无效上下文处理,提升了系统响应速度与成本可控性。
提示词工程通过设计输入指令来优化大语言模型的输出稳定性和可控性。其核心方法包括角色设定、任务拆解、示例引导和格式约束,实践中常将提示词模板化、系统化,并借助链式调用处理复杂任务。结构化输出便于程序处理,该方法已广泛应用于AI客服、内容审核、图文匹配和内容生成等领域。
随着新型电力系统建设的全面提速,配电网的数字化与智能化转型已成为行业发展的必然方向。在这一进程中,DTU(站所配电自动化终端)与FTU(馈线自动化终端)发挥着不可替代的关键作用。它们如同配电网的“智能感知末梢”与“快速执行单元”,直接决定了电网故障定位的精准性、供电恢复的及时性以及整体运维的智能化水
热门专题
热门推荐
制作PPT用什么软件好?2024年五大主流工具深度评测 无论是职场汇报、学术答辩还是项目路演,一份专业且吸引人的PPT演示文稿都至关重要。面对众多制作工具,如何选择最适合自己的那一款?本文将对五款主流的PPT软件进行全方位对比分析,从功能、协作、设计到易用性,助您根据核心需求做出最佳决策,高效打造令
今日A股市场整体走势偏弱,朗玛信息(股票代码300288)股价同步调整,截至收盘下跌3 16%,全天成交额4783 73万元,换手率为1 77%,公司总市值约为35 21亿元。股价的短期波动,引发了投资者对其核心投资逻辑与未来潜在机会的深入探讨。 异动深度解析:AI医疗战略的机遇与挑战 朗玛信息是市
《超级蠕虫大战圣诞老人2》是一款休闲益智游戏,攻略涵盖基本操作、关卡解锁与道具使用。玩家需掌握战斗策略与技能升级,熟悉敌人特性和环境机制。合理运用道具并完成隐藏任务可获取奖励,多人模式注重策略博弈。建议多练习并参与社区交流,同时注意游戏时长以保护视力。
在Kimi里搜索“2026年北京积分落户政策细则”,如果跳出来的总是房产中介的软文、培训机构的广告或者各种自媒体猜测,那说明默认的联网检索没有经过过滤。想要获得干净、权威的结果,必须主动使用结构化的提示词进行限定。 用结构化提示词锁定权威信源 这一步是关键,直接决定了你看到的信息是来自官方发布渠道,
为避免代码丢失,Qoder编辑器需手动开启自动保存功能。全局设置中可开启开关并选择触发条件,如按时间间隔或窗口失去焦点时保存。还可为特定项目单独配置,覆盖全局设置。若功能失效,需检查文件位置是否只读、用户权限是否足够,并避免直接编辑受保护的系统文件。





