首页 游戏 软件 资讯 排行榜 专题
首页
数据库
SQL怎么在分组中统计唯一值的分布_使用NDV或APPROX_COUNT

SQL怎么在分组中统计唯一值的分布_使用NDV或APPROX_COUNT

热心网友
76
转载
2026-04-26

SQL怎么在分组中统计唯一值的分布_使用NDV或APPROX_COUNT

SQL怎么在分组中统计唯一值的分布_使用NDV或APPROX_COUNT

NDV() 在 Oracle 中直接统计分组内唯一值个数

如果你在使用 Oracle 12c 或更高版本,那么恭喜你,数据库已经内置了一个处理分组去重计数的利器——NDV() 聚合函数。这个函数的核心是 HyperLogLog 算法,专门用来做近似去重计数。在处理海量数据的分组统计时,它的速度通常比传统的 COUNT(DISTINCT ...) 要快得多。

不过,新手常犯的一个错误是把它当作普通函数来调用。这里必须划个重点:NDV() 必须与 GROUP BY 子句配合使用,不能孤零零地放在 SELECT 列表里。正确的打开方式是这样的:

SELECT dept_id, NDV(emp_id) FROM emp GROUP BY dept_id;

有几点需要特别注意:首先,NDV() 返回的是整型的近似值,误差率通常能控制在很低的水平。其次,它的使用场景有一定限制:

  • 它不支持 ORDER BY 或窗口函数(比如 OVER(PARTITION BY ...))那样的修饰。
  • 无法与 ROLLUPCUBE 这类分组扩展操作混合使用。
  • 当列中存在大量 NULL 值时,NDV() 会默认忽略它们,这个行为和标准的 COUNT(DISTINCT ...) 是一致的。

APPROX_COUNT_DISTINCT() 是跨数据库更通用的替代方案

如果你的技术栈不局限于 Oracle,那么 APPROX_COUNT_DISTINCT() 这个函数名可能更眼熟。它已经成为一种跨数据库的通用方案,在 PostgreSQL 13+、SQL Server 2019+、BigQuery 以及 Spark SQL 中都有提供。虽然语义和用法大同小异,但底层实现算法可能有所不同(例如 Spark 就采用了 K-Minimum Values 算法)。

它的典型应用场景,就是替换那些慢到让人无法忍受的 COUNT(DISTINCT user_id) 查询:

SELECT country, APPROX_COUNT_DISTINCT(user_id) AS uniq_users
FROM logs
WHERE dt = '2024-06-01'
GROUP BY country;

性能提升往往是立竿见影的。在百亿行级别的日志表上进行测试,APPROX_COUNT_DISTINCT() 通常比精确去重快上 3 到 5 倍,内存占用更是能降低一个数量级。

当然,使用时也有几个坑要避开:

  • 返回值虽然是 BIGINT 类型,但它本质是近似整数,切忌用它来做精确的等值判断(例如 WHERE APPROX_COUNT_DISTINCT(x) = 1000)。
  • 在某些计算引擎(如 Presto)中,该函数必须配合 GROUP BY 使用,否则会抛出 INVALID_FUNCTION_ARGUMENT 这类错误。
  • 对于数据量很小的场景,它的性能优势可能并不明显,甚至不如精确计数。

为什么不能在同一个 SELECT 里混用精确和近似去重

很多开发者会想当然地尝试在一个查询里同时获取精确值和近似值,比如这样写:

SELECT dept_id,
       COUNT(DISTINCT emp_id),     -- 精确计数
       NDV(salary)                 -- 近似计数
FROM emp GROUP BY dept_id;

结果往往是行不通的。Oracle 会报错 ORA-30497: Argument should be a constant or a function of constants,而 Spark 则会抛出 AnalysisException: cannot resolve 'NDV' given input columns。其根本原因在于,精确去重和近似去重走的是两套完全不同的计算路径:前者通常依赖排序合并或哈希聚合,后者则基于草图算法进行流式聚合。查询引擎无法将这两套执行计划有效地合并起来。

如果业务上确实需要同时输出两种结果,该怎么办呢?一个可行的思路是拆分成两个子查询,然后再进行 JOIN。但这里要格外小心,确保连接键(包括对 NULL 值的处理方式)完全一致。

  • 另外要注意的是,不同系统间的函数命名可能造成混淆。例如在 Hive 中,APPROX_COUNT_DISTINCT() 实际上调用的是名为 ndv() 的用户自定义聚合函数,容易让人误以为是同一个东西。
  • 还有一点很重要:不要试图用 APPROX_COUNT_DISTINCT() 配合 HA VING 子句去做强过滤。因为固有的误差可能导致本应被选中的分组被意外漏掉。

误差控制和验证建议

近似计算函数并非一个不可知的黑盒。我们可以通过一些方法来评估和控制其误差,确保结果在业务可接受的范围内。

一个常见的做法是引入采样验证。例如,可以在分组计算后,增加一层校验逻辑:

WITH approx AS (
  SELECT dept_id, APPROX_COUNT_DISTINCT(emp_id) AS est
  FROM emp GROUP BY dept_id
),
exact AS (
  SELECT dept_id, COUNT(DISTINCT emp_id) AS cnt
  FROM emp WHERE dept_id IN (SELECT dept_id FROM approx LIMIT 10)
  GROUP BY dept_id
)
SELECT a.dept_id, a.est, e.cnt, ROUND(ABS(a.est-e.cnt)*100.0/e.cnt, 2) AS err_pct
FROM approx a JOIN exact e USING(dept_id);

观察的重点在于误差是否稳定,以及是否会随着数据量的增长而收敛。如果某个分组的误差率突然飙升到 15% 以上,那很可能意味着该组内的数据分布非常极端(例如 99% 的值都相同),而这类草图算法在此类场景下的表现往往会打折扣。

  • 因此,在生产环境全面上线前,务必要对业务关心的核心分组(比如 VIP 客户、高价值区域)跑一次精确对比,做到心中有数。
  • 切记,不要把 APPROX_COUNT_DISTINCT() 的近似结果存入那些要求强一致性的下游业务表。
  • 部分引擎(如 Trino)提供了更灵活的接口,允许你调整误差率参数,例如 APPROX_COUNT_DISTINCT(x, 0.01)。但需要明白,对精度要求越高,相应的内存和时间开销也会越大。

总而言之,在实际采用这些近似函数之前,先确认两件事:第一,你的数据库版本是否确实支持;第二,你的业务逻辑是否能容忍一定的误差。这两点如果没搞清楚,后面的所有优化努力都可能白费。

来源:https://www.php.cn/faq/2312203.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

资金费率详解:合约交易中为何持续支付费用及其计算规则
web3.0
资金费率详解:合约交易中为何持续支付费用及其计算规则

资金费率是永续合约锚定现货价格的关键机制。当合约价高于现货价时,多头需向空头支付费用;反之则由空头付费。费率每8小时结算,通过经济激励促使价格回归。持续付费通常表明持有多单且市场处于正费率状态。交易者可结合现货持仓与空头合约进行套利,赚取费率收益。

热心网友
05.26
人力资源经理岗位说明书撰写指南 AI工具高效生成技巧
AI教程
人力资源经理岗位说明书撰写指南 AI工具高效生成技巧

人力资源经理统筹公司人力资源事务,涵盖招聘、培训等多方面职责,其岗位说明书既是企业选人的标准,也是员工履职的指南。借助AI写作工具,可提升说明书撰写效率。

热心网友
05.26
九号鼹鼠自平衡20与同频双闪技术首发引领两轮智能出行新阶段
科技数码
九号鼹鼠自平衡20与同频双闪技术首发引领两轮智能出行新阶段

九号公司发布鼹鼠自平衡2 0与同频双闪两项核心技术。前者通过算法与系统协同实现车辆自主平衡,提升低速与驻停时的操控便利与安全;后者基于统一授时与软总线架构,实现多车灯光精准同步,增强车队辨识与协同体验。两项技术体现了九号在底层智能架构上的系统突破,推动两轮出

热心网友
05.26
毒液突击队难以捉摸成就解锁方法详解
游戏资讯
毒液突击队难以捉摸成就解锁方法详解

想要在《毒液突击队》中解锁“难以捉摸”成就?这项挑战对玩家的潜行技巧要求极高,但只要掌握正确方法,成功触发的难度将大大降低。其核心秘诀在于:保持全程隐匿状态,确保没有任何敌人察觉到你的存在。 成就目标解析 “难以捉摸”成就的达成条件非常严格:在指定的任务关卡中,你必须完全避免进入敌人的“警觉”或“发

热心网友
05.26
千问模型如何优化智能推荐系统的内容理解模块
AI资讯
千问模型如何优化智能推荐系统的内容理解模块

推荐系统常因语义、多模态和意图理解不足产生偏差。通义千问系列模型可针对性补强:通过轻量模型重排序提升相关性,多模态模型确保图文匹配,指令模型解析用户行为提炼兴趣标签,OCR提取图像文字,并结合PID控制算法动态融合多源信息,依据实时反馈自动优化权重。

热心网友
05.26