首页 游戏 软件 资讯 排行榜 专题
首页
数据库
SQL怎样在分组后对字符串进行去重拼接_使用ARRAY_AGG去重

SQL怎样在分组后对字符串进行去重拼接_使用ARRAY_AGG去重

热心网友
64
转载
2026-04-30

SQL怎样在分组后对字符串进行去重拼接_使用ARRAY_AGG去重

SQL怎样在分组后对字符串进行去重拼接_使用ARRAY_AGG去重

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

ARRAY_AGG(DISTINCT ...) 是最直接的去重拼接方式

说到在PostgreSQL里分组后对字符串进行去重拼接,ARRAY_AGG(DISTINCT ...)无疑是首选方案。从PostgreSQL 10版本开始,这个功能就得到了原生支持。它的优势非常明显:语法极其简洁,性能表现优秀,最关键的是,它完美契合了“分组、去重、聚合成数组”这一系列连贯需求,无需再借助子查询或数组展开这些“曲线救国”的手段。

不过,直接使用DISTINCT时,有几个细节值得特别注意。一个常见的疏忽是排序问题。比如,你可能会这样写:ARRAY_AGG(DISTINCT tag ORDER BY tag)。看起来没问题,对吧?但如果tag字段里包含了NULL值,默认的排序规则会把NULL排在最前面,这很可能打乱你的业务预期。正确的做法是显式指定NULLS LAST

  • ARRAY_AGG(DISTINCT tag ORDER BY tag NULLS LAST)
  • 另外,如果字段是文本类型且可能包含首尾空格,建议先用trim(tag)处理再去重,否则像'VIP''VIP '这样的值会被视为两个不同的条目。
  • 最后,请务必记住:如果不加ORDER BY子句,聚合结果的顺序是不确定的。即使源数据看起来有序,数据库也不保证ARRAY_AGG的输出顺序。

为什么不用 STRING_AGG(DISTINCT ...) 直接拼接?

你可能会问,STRING_AGG不也支持DISTINCT吗?比如STRING_AGG(DISTINCT tag, ','),直接输出一个用逗号连接的字符串,岂不是更省事?

这里的关键在于后续处理能力。STRING_AGG的输出是“死”的字符串,一旦生成,就很难再被结构化地处理。而ARRAY_AGG(DISTINCT ...)返回的是鲜活的数组类型,这为后续计算打开了无限可能。你可以立刻调用array_to_string将其转为字符串,用array_length统计元素个数,或者通过下标(如(arr)[1])直接取出特定位置的元素。

来看几个典型场景:

  • 需要同时获得去重后的标签字符串和标签数量:array_to_string(ARRAY_AGG(DISTINCT tag), ',')array_length(ARRAY_AGG(DISTINCT tag), 1)
  • 想取优先级最高的那个标签作为主标签:(ARRAY_AGG(DISTINCT tag ORDER BY priority DESC))[1]
  • 后续计划在应用层(比如用Python的json.loads)反序列化数据——数组格式比单纯的逗号分隔字符串要结构化得多,处理起来也更方便。

遇到 GROUP BY 字段多、去重逻辑复杂怎么办?

现实情况往往更复杂。当去重规则需要基于多个字段的组合(例如,必须(user_id, tag, source)三者完全相同才算重复),或者需要按照业务优先级进行过滤(比如优先保留source = 'system'的标签,其次才考虑'manual'的)时,简单的DISTINCT关键字就力不从心了。

这时候,正确的思路是把去重逻辑“上推”到输入层。也就是说,先通过CTE(公共表表达式)或子查询,把数据预处理干净。常用的方法包括:

  • 使用SELECT DISTINCT ON (user_id, tag) *,按照业务规则为每组重复项只保留一行。
  • 或者,利用窗口函数ROW_NUMBER() OVER (PARTITION BY user_id, tag ORDER BY CASE source WHEN 'system' THEN 1 ELSE 2 END)来标记每一行的优先级。

完成这步预处理之后,再对外层的结果集调用ARRAY_AGG(tag)。此时输入数据已经是去重后的状态,聚合函数里自然也就不需要再加DISTINCT了。试图在ARRAY_AGG内部嵌套UNNESTDISTINCTARRAY构造来强行实现复杂去重,是一条弯路,不仅性能差,可读性也低,除非是为了兼容极老的数据库版本,否则不建议采用。

Greenplum 或旧版 PostgreSQL 不支持 DISTINCT 怎么办?

好在,大部分现代版本的Greenplum(6.x及以上)已经支持ARRAY_AGG(DISTINCT ...)了。但如果确实遇到了不支持的环境(比如Greenplum 5.x或非常老的PostgreSQL),也有一条可靠的备用路径:通过子查询先行去重。

具体写法如下:
SELECT user_id, ARRAY_AGG(tag) AS tags FROM (SELECT DISTINCT user_id, tag FROM user_tags) t GROUP BY user_id;

采用这种方法时,有两点需要牢记:

  • 子查询的SELECT列表中必须包含外层GROUP BY的所有字段(本例中是user_id),否则外层分组时会报错。
  • 如果还需要对结果排序,可以在子查询里加入ORDER BY user_id, tag。但要注意,PostgreSQL并不保证子查询中的排序能传递到外层的聚合函数中。最稳妥的做法,是在外层的ARRAY_AGG中再次明确指定ORDER BY tag

这种写法的优点是兼容性极佳,几乎能在所有支持数组聚合的数据库上运行。但缺点也很明显:执行计划中多了一层嵌套循环,当数据量很大时,其I/O和内存开销会显著高于原生支持DISTINCT的聚合方式。

来源:https://www.php.cn/faq/2333813.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

以太网交换机怎么设置端口VLAN
电脑教程
以太网交换机怎么设置端口VLAN

以太网交换机端口VLAN设置:从规划到验证的实战指南 给交换机端口划分VLAN,听起来是基础操作,但配置的精准度直接决定了整个二层网络的“健康”状况。其核心逻辑并不复杂:通过静态方式,将物理端口精准地划归到指定的VLAN ID下,并根据端口所连接设备的不同角色,灵活选用Access、Trunk或Hy

热心网友
04.30
半球电热水壶安装时要注意什么
电脑教程
半球电热水壶安装时要注意什么

半球电热水壶安装的核心在于确保底座稳固、电气连接可靠、温控机构精准复位 新壶到手,先别急着烧水。安装这事儿,看似简单,实则每一步都关乎安全和后续的使用体验。核心就围绕三点:底座得稳如磐石,电源连接要万无一失,最关键的是那个负责自动断电的温控机构,必须装得精准到位。下面咱们就按顺序,把每一步拆解清楚。

热心网友
04.30
按摩椅要怎么使用才能达到最佳效果?
电脑教程
按摩椅要怎么使用才能达到最佳效果?

要达到最佳效果,按摩椅必须遵循“科学频次、精准力度、身心协同”的使用原则 想让按摩椅真正成为你的健康伙伴,而不是一件摆设?关键在于掌握一套科学的“使用说明书”。每天早晚各一次、每次20分钟,这个时长可不是凭空而来,而是经过了临床康复研究和主流品牌海量用户实测验证的黄金标准。至于力度调节,必须严格遵从

热心网友
04.30
家用投影仪选购技巧适合小户型吗?
电脑教程
家用投影仪选购技巧适合小户型吗?

家用投影仪不仅适合小户型,而且正成为现代紧凑型居住空间的理想影音解决方案 谁说小空间就与影院级享受无缘?如今,像当贝D6X Pro这样的新一代机型,正凭借其2 1kg的轻巧机身、1 2:1的友好投射比,以及能灵活旋转225度的AI云台,彻底改写了游戏规则。你只需大约3米的距离,就能轻松投出81英寸的

热心网友
04.30
半球电热水壶安装前要清洗吗
电脑教程
半球电热水壶安装前要清洗吗

是的,半球电热水壶在首次使用前必须清洗 这几乎是所有正规家电产品启用前的“规定动作”。你可能会想,新买的水壶看起来光洁如新,为什么还要多此一举?原因在于,即便是采用食品级304不锈钢内胆和智能蒸汽感应控温技术的合规产品,在经历生产、仓储和运输的漫长旅程后,内胆表面仍可能附着微量的金属加工碎屑、防锈保

热心网友
04.30

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

小米SU7车主引奥迪互动,新老品牌山脊赛道共赴热爱
娱乐
小米SU7车主引奥迪互动,新老品牌山脊赛道共赴热爱

2026年4月2日,一场始于订单的“双向奔赴” 汽车圈最近上演了一出颇有温度的品牌互动,起因是一张来自社交平台的购车订单。一位原奥迪车主公开晒出了小米SU7的订单截图,并向相关负责人致以问候。这原本只是一条个人动态,却没承想,引发了一连串超出预期的友好回应。 消息传出后,上汽奥迪的反应堪称迅速且巧妙

热心网友
04.30
特斯拉2026年Q1电动车产销双增,加速布局Robotaxi与人形机器人量产
娱乐
特斯拉2026年Q1电动车产销双增,加速布局Robotaxi与人形机器人量产

特斯拉2026年Q1财报解读:业绩稳健增长,自动驾驶与机器人战略加速落地 2026年第一季度,特斯拉再次向市场展示了其强劲的发展动能。在全球电动汽车市场,特斯拉产量成功突破40 8万辆,实现同比12 7%的稳健增长;同期交付量达到35 8万辆,同比增长6 5%。与此同时,特斯拉储能业务表现突出,总装

热心网友
04.30
我的世界愚人节更新移除仓库系统,地面直取物品引热议
娱乐
我的世界愚人节更新移除仓库系统,地面直取物品引热议

四月一日,沙盒游戏我的世界推出一次特别更新,引发广泛关注 话说回来,四月的第一天,经典沙盒游戏《我的世界》,就整了个“大活儿”。一项听起来颇有碘伏性的设计调整,在社区内炸开了锅:游戏直接移除了沿用已久的仓库系统,改为所有物品都能随手放在地面,想用的时候捡起来就行。 仓库功能向来是此类建造型游戏的核心

热心网友
04.30
某巨鲸从Kraken提取4,472枚ETH,当前持仓市值约2,000万美元
web3.0
某巨鲸从Kraken提取4,472枚ETH,当前持仓市值约2,000万美元

巨鲸再出手:千万美元级ETH悄然离场 市场总是静水深流。就在今天,链上数据捕捉到一笔值得玩味的动向。根据链上分析师Onchain Lens的监测,大约三小时前,一个地址尾号为“24d4”的巨鲸,从知名交易所Kraken一口气提取了4,472枚ETH。按当前市价估算,这笔资产价值接近一千万美元。 这可

热心网友
04.30
京东京造推黄金气囊磁吸支架:含1克99.99%黄金,售价1199元
娱乐
京东京造推黄金气囊磁吸支架:含1克99.99%黄金,售价1199元

京东京造再推黄金配件新品:磁吸支架以亲民价格亮相 关注京东京造的朋友一定还记得此前推出的黄金手机壳,因其独特设计与高纯度金材质引发了不少讨论。如今品牌再度升级,带来了一款更贴近日常使用的“轻量化”黄金配件——黄金气囊手机磁吸支架,进一步降低了黄金数码配件的入手门槛。 产品解析:含金量与设计亮点 这款

热心网友
04.30