游乐游手机版
首页/编程语言/文章详情

按年份类别组合高效计算分组唯一值数量

时间:2026-06-24 07:34
一行代码用Pandas的groupby() transform( nunique ),可同时为DataFrame添加多分组维度下的唯一值计数列,省去冗余merge操作,提升代码简洁性、可读性与执行效率,且易于扩展至更多分组。
本文详细介绍如何借助 Pandas 的 groupby().transform() 方法,仅用一行代码便可在原始 DataFrame 中同时添加多个分组维度下的唯一值计数列,彻底告别冗余的 merge 操作,显著提升代码可读性与执行效率。

先说一个核心结论:在数据分析场景中,若想在保留原表每一行数据的前提下,按不同维度统计不重复值的数量,反复调用 `groupby().nunique()` 再通过 `merge` 合并回原表,不仅代码冗长,还极易因索引对齐问题引发错误。更高效的方案是采用 `transform()`,一步到位完成广播赋值。

想象一下,你手头有一份包含年份、类别和观测 ID 的数据集。任务要求:不仅要统计每个类别中有多少不重复的 ID,还要看每年有多少,甚至每年的每个类别下有多少。传统写法是什么?写三个 groupby,得到三个聚合结果,再逐一合并回去。代码看着就头疼,执行效率也十分低下。

而使用 `transform('nunique')`,事情就变得简单多了。它能够将分组聚合后的唯一值数量,原封不动地广播回每一行——这意味着在原表的每一行旁边,直接多出一列,清晰显示“你所在的分组里,有多少个不重复的 ID”。无需合并,无需对索引,一行代码即可搞定。

来看一段示例代码,感受这种写法的优雅之处:

import pandas as pd
df = pd.DataFrame({
    'year': [2020, 2020, 2020, 2021, 2021, 2022, 2023, 2023, 2023, 2023],
    'cat':  [1,    1,    2,    2,    3,    3,    1,    2,    3,    4],
    'i':    ['a',  'a',  'b',  'c',  'd',  'e',  'f',  'f',  'g',  'g']
})

# 定义所有需要统计的分组维度(单列与组合)
groups = ['cat', 'year', ['cat', 'year']]

# 批量添加新列:n_by_cat、n_by_year、n_by_catyear
for g in groups:
    col_name = f"n_by_{''.join(map(str, g))}" if isinstance(g, list) else f"n_by_{g}"
    df[col_name] = df.groupby(g)['i'].transform('nunique')

运行之后,原表会直接多出三列:n_by_cat、n_by_year、n_by_catyear。每一行的数据,都精确反映了它所在分组内不重复 i 的数量。

yearcatin_by_catn_by_yearn_by_catyear
20201a221
20201a221
..................

这种写法的优势,其实非常明显:

  • 简洁高效:无需创建中间聚合表,也无需手动执行 merge,列名与键匹配的风险自然消失,代码量大幅缩减。
  • 索引一致:`transform` 天然保证输出行数与原 DataFrame 完全一致,彻底规避了索引错位之类的坑。
  • 易于扩展:如果将来需要增加 `['year', 'cat', 'region']` 这样的分组维度,只需往 `groups` 列表中加入一项,代码几乎无需改动。
  • 性能出色:Pandas 对 `transform` 底层做了专门优化,当数据量较大时,其执行效率明显优于多次 `merge`,这一特点在日常工作中能直观体会到。

当然,使用过程中也有一些细节需要留意:

  • `transform('nunique')` 要求被统计的列(此处为 `i`)必须支持哈希比较,例如字符串、数值、元组均可。但如果列中包含 NaN 或不可哈希的对象类型,则可能出现问题。
  • 分组键若含有缺失值(NaN),Pandas 默认会将 NaN 视为独立分组。如果这不是预期行为,请提前使用 `dropna(subset=['cat', 'year'])` 清理缺失值。
  • 列名生成逻辑虽可自动适配单列与多列分组,但在实际项目中,建议根据业务语义自定义更直观的列名(例如 `n_distinct_i_by_cat`),进一步提升代码可读性。

掌握这一技巧后,处理类似的分组统计任务将变得极为顺手。它虽算不上高深算法,但在 Pandas 数据工程实践中,绝对是一个省时省力的实用窍门。希望本文能帮助你在日常工作中提升效率、减少烦恼。

来源:https://www.php.cn/faq/2675244.html
上一篇Go语言实现IPv6CIDR网段可用地址总数高效计算方法 下一篇Go语言JWT+OAuth2.0企业级单点登录系统实战指南
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
PyTorch中使用多维索引张量对高维张量批量索引的正确方法
编程语言 · 2026-07-03

PyTorch中使用多维索引张量对高维张量批量索引的正确方法

本文深入讲解如何在 PyTorch 中利用形状为 [b, k] 的索引张量 B,对形状为 [b, m, n] 的高维张量 A 执行高效批量索引,最终得到 [b, k, n] 的输出。核心思路在于合理扩展索引维度并配合 torch gather 实现精准的逐行抽取。 很多人处理高维张量的批量索引时都会

Go中...操作符解包切片传递可变参数函数
编程语言 · 2026-07-03

Go中...操作符解包切片传递可变参数函数

在 Go 语言中,` ` 运算符放在切片变量后面(如 `slice `)的作用是将该切片“展开”为多个独立参数,专门用于调用那些接受可变参数(` T`)的函数,例如 `append` 或 `fmt Println`。这是一种类型安全的语法糖,并非省略号或通配符,能够帮助开发者更简洁地处理

macOS与WSL2下PHP多版本切换失效问题排查与修复指南
编程语言 · 2026-07-03

macOS与WSL2下PHP多版本切换失效问题排查与修复指南

本文深入分析在 macOS 或 WSL2(Ubuntu)开发环境中,通过 Homebrew 管理 PHP 多版本时,php -v 始终显示旧版本(如 php@5 6)的深层原因,并给出系统性解决方案,覆盖 PATH 冲突、符号链接逻辑、Shell 初始化配置、系统残留配置等关键环节。 遇到这种情况的

PHP JSON解析深层嵌套对象属性访问失败的解决方法
编程语言 · 2026-07-03

PHP JSON解析深层嵌套对象属性访问失败的解决方法

使用 json_decode() 解析 API 返回的 JSON 数据时,经常遇到某个子属性无法正常获取,始终返回 NULL —— 这是许多 PHP 开发者都曾碰到过的棘手问题。通常并非数据丢失,而是对象嵌套层级比预期更深,导致访问路径不正确。 举例来说,你看到返回的 JSON 里有一个 appea

nnU-Net v2预处理卡死问题的成因分析与实用解决指南
编程语言 · 2026-07-03

nnU-Net v2预处理卡死问题的成因分析与实用解决指南

> 使用 nnUNetv2_plan_and_preprocess 处理大规模数据集(例如 704 例样本)时,程序常因多进程加载导致死锁而停滞。核心原因在于默认并发数过高引发资源竞争或 I O 阻塞,适当降低并发数即可稳定完成全量预处理。 你在使用 `nnunetv2_plan_and_prepr