按年份类别组合高效计算分组唯一值数量

时间：2026-06-24 07:34

一行代码用Pandas的groupby() transform( nunique )，可同时为DataFrame添加多分组维度下的唯一值计数列，省去冗余merge操作，提升代码简洁性、可读性与执行效率，且易于扩展至更多分组。

本文详细介绍如何借助 Pandas 的 groupby().transform() 方法，仅用一行代码便可在原始 DataFrame 中同时添加多个分组维度下的唯一值计数列，彻底告别冗余的 merge 操作，显著提升代码可读性与执行效率。

先说一个核心结论：在数据分析场景中，若想在保留原表每一行数据的前提下，按不同维度统计不重复值的数量，反复调用 `groupby().nunique()` 再通过 `merge` 合并回原表，不仅代码冗长，还极易因索引对齐问题引发错误。更高效的方案是采用 `transform()`，一步到位完成广播赋值。

想象一下，你手头有一份包含年份、类别和观测 ID 的数据集。任务要求：不仅要统计每个类别中有多少不重复的 ID，还要看每年有多少，甚至每年的每个类别下有多少。传统写法是什么？写三个 groupby，得到三个聚合结果，再逐一合并回去。代码看着就头疼，执行效率也十分低下。

而使用 `transform('nunique')`，事情就变得简单多了。它能够将分组聚合后的唯一值数量，原封不动地广播回每一行——这意味着在原表的每一行旁边，直接多出一列，清晰显示“你所在的分组里，有多少个不重复的 ID”。无需合并，无需对索引，一行代码即可搞定。

来看一段示例代码，感受这种写法的优雅之处：

import pandas as pd
df = pd.DataFrame({
    'year': [2020, 2020, 2020, 2021, 2021, 2022, 2023, 2023, 2023, 2023],
    'cat':  [1,    1,    2,    2,    3,    3,    1,    2,    3,    4],
    'i':    ['a',  'a',  'b',  'c',  'd',  'e',  'f',  'f',  'g',  'g']
})

# 定义所有需要统计的分组维度（单列与组合）
groups = ['cat', 'year', ['cat', 'year']]

# 批量添加新列：n_by_cat、n_by_year、n_by_catyear
for g in groups:
    col_name = f"n_by_{''.join(map(str, g))}" if isinstance(g, list) else f"n_by_{g}"
    df[col_name] = df.groupby(g)['i'].transform('nunique')

运行之后，原表会直接多出三列：n_by_cat、n_by_year、n_by_catyear。每一行的数据，都精确反映了它所在分组内不重复 i 的数量。

year	cat	i	n_by_cat	n_by_year	n_by_catyear
2020	1	a	2	2	1
2020	1	a	2	2	1
...	...	...	...	...	...

这种写法的优势，其实非常明显：

简洁高效：无需创建中间聚合表，也无需手动执行 merge，列名与键匹配的风险自然消失，代码量大幅缩减。
索引一致：`transform` 天然保证输出行数与原 DataFrame 完全一致，彻底规避了索引错位之类的坑。
易于扩展：如果将来需要增加 `['year', 'cat', 'region']` 这样的分组维度，只需往 `groups` 列表中加入一项，代码几乎无需改动。
性能出色：Pandas 对 `transform` 底层做了专门优化，当数据量较大时，其执行效率明显优于多次 `merge`，这一特点在日常工作中能直观体会到。

当然，使用过程中也有一些细节需要留意：

`transform('nunique')` 要求被统计的列（此处为 `i`）必须支持哈希比较，例如字符串、数值、元组均可。但如果列中包含 NaN 或不可哈希的对象类型，则可能出现问题。
分组键若含有缺失值（NaN），Pandas 默认会将 NaN 视为独立分组。如果这不是预期行为，请提前使用 `dropna(subset=['cat', 'year'])` 清理缺失值。
列名生成逻辑虽可自动适配单列与多列分组，但在实际项目中，建议根据业务语义自定义更直观的列名（例如 `n_distinct_i_by_cat`），进一步提升代码可读性。

掌握这一技巧后，处理类似的分组统计任务将变得极为顺手。它虽算不上高深算法，但在 Pandas 数据工程实践中，绝对是一个省时省力的实用窍门。希望本文能帮助你在日常工作中提升效率、减少烦恼。

来源：https://www.php.cn/faq/2675244.html

pandas