本文详细介绍如何借助 Pandas 的 groupby().transform() 方法,仅用一行代码便可在原始 DataFrame 中同时添加多个分组维度下的唯一值计数列,彻底告别冗余的 merge 操作,显著提升代码可读性与执行效率。
先说一个核心结论:在数据分析场景中,若想在保留原表每一行数据的前提下,按不同维度统计不重复值的数量,反复调用 `groupby().nunique()` 再通过 `merge` 合并回原表,不仅代码冗长,还极易因索引对齐问题引发错误。更高效的方案是采用 `transform()`,一步到位完成广播赋值。
想象一下,你手头有一份包含年份、类别和观测 ID 的数据集。任务要求:不仅要统计每个类别中有多少不重复的 ID,还要看每年有多少,甚至每年的每个类别下有多少。传统写法是什么?写三个 groupby,得到三个聚合结果,再逐一合并回去。代码看着就头疼,执行效率也十分低下。
而使用 `transform('nunique')`,事情就变得简单多了。它能够将分组聚合后的唯一值数量,原封不动地广播回每一行——这意味着在原表的每一行旁边,直接多出一列,清晰显示“你所在的分组里,有多少个不重复的 ID”。无需合并,无需对索引,一行代码即可搞定。
来看一段示例代码,感受这种写法的优雅之处:
import pandas as pd
df = pd.DataFrame({
'year': [2020, 2020, 2020, 2021, 2021, 2022, 2023, 2023, 2023, 2023],
'cat': [1, 1, 2, 2, 3, 3, 1, 2, 3, 4],
'i': ['a', 'a', 'b', 'c', 'd', 'e', 'f', 'f', 'g', 'g']
})
# 定义所有需要统计的分组维度(单列与组合)
groups = ['cat', 'year', ['cat', 'year']]
# 批量添加新列:n_by_cat、n_by_year、n_by_catyear
for g in groups:
col_name = f"n_by_{''.join(map(str, g))}" if isinstance(g, list) else f"n_by_{g}"
df[col_name] = df.groupby(g)['i'].transform('nunique')
运行之后,原表会直接多出三列:n_by_cat、n_by_year、n_by_catyear。每一行的数据,都精确反映了它所在分组内不重复 i 的数量。
| year | cat | i | n_by_cat | n_by_year | n_by_catyear |
|---|---|---|---|---|---|
| 2020 | 1 | a | 2 | 2 | 1 |
| 2020 | 1 | a | 2 | 2 | 1 |
| ... | ... | ... | ... | ... | ... |
这种写法的优势,其实非常明显:
- 简洁高效:无需创建中间聚合表,也无需手动执行 merge,列名与键匹配的风险自然消失,代码量大幅缩减。
- 索引一致:`transform` 天然保证输出行数与原 DataFrame 完全一致,彻底规避了索引错位之类的坑。
- 易于扩展:如果将来需要增加 `['year', 'cat', 'region']` 这样的分组维度,只需往 `groups` 列表中加入一项,代码几乎无需改动。
- 性能出色:Pandas 对 `transform` 底层做了专门优化,当数据量较大时,其执行效率明显优于多次 `merge`,这一特点在日常工作中能直观体会到。
当然,使用过程中也有一些细节需要留意:
- `transform('nunique')` 要求被统计的列(此处为 `i`)必须支持哈希比较,例如字符串、数值、元组均可。但如果列中包含 NaN 或不可哈希的对象类型,则可能出现问题。
- 分组键若含有缺失值(NaN),Pandas 默认会将 NaN 视为独立分组。如果这不是预期行为,请提前使用 `dropna(subset=['cat', 'year'])` 清理缺失值。
- 列名生成逻辑虽可自动适配单列与多列分组,但在实际项目中,建议根据业务语义自定义更直观的列名(例如 `n_distinct_i_by_cat`),进一步提升代码可读性。
掌握这一技巧后,处理类似的分组统计任务将变得极为顺手。它虽算不上高深算法,但在 Pandas 数据工程实践中,绝对是一个省时省力的实用窍门。希望本文能帮助你在日常工作中提升效率、减少烦恼。
