在数据分析工作中,经常需要根据多个维度计算“相对频率”——例如每条公交线路在不同城市出现的次数占比。这个需求看似简单,但实际操作中稍不注意就容易走弯路。本文将深入讲解如何利用 pandas 高效完成这一任务,既支持展示全部城市列(含零占比),也提供仅显示非零结果的精简版本。
先看一个具体场景:我们有一个数据框,包含两列——公交线路编号(Bus_no.)和所属城市(City)。目标是:针对每条公交线路,统计其在各个城市的出现频次,并转换为该线路总记录数的百分比。举例来说,线路 3412. 总共出现 3 次,其中 Kolkata 1 次、Mumbai 2 次,那么占比分别为 33.33% 和 66.67%。

✅ 推荐方案:pd.crosstab + 归一化(含全部城市)
当我们需要生成一个固定列结构的矩阵表格——所有城市作为列,即使某条线路未出现也显示 0.0%——此时 pd.crosstab 是最直接高效的实现方式:
import pandas as pd
# 构建示例数据集
df = pd.DataFrame({
'Bus_no.': ['3412.', '7658.', '3412.', '5516.', '7658.', '3412.'],
'City': ['Kolkata', 'Nagpur', 'Mumbai', 'Kolkata', 'Chennai', 'Mumbai']
})
# 动态计算每条线路在各城市的百分比(行归一化)
result = (
pd.crosstab(
index=df['Bus_no.'],
columns=df['City'],
normalize='index' # 按行(即每个 Bus_no.)归一化
)
.mul(100) # 转换为百分比格式
.round(2) # 保留两位小数
.reset_index() # 将 Bus_no. 变为普通列
.rename_axis(columns=None) # 清除列索引名称
)
print(result)
输出结果:
Bus_no. Chennai Kolkata Mumbai Nagpur 0 3412. 0.0 33.33 66.67 0.0 1 5516. 0.0 100.00 0.0 0.0 2 7658. 50.0 0.00 0.0 50.0
✅ 优势:自动覆盖全部城市(Chennai, Kolkata, Mumbai, Nagpur),生成标准 DataFrame,便于后续导出或可视化呈现。
⚙️ 替代方案:groupby().value_counts()(仅非零项)
如果只需要精简结果——跳过那些 0% 的记录,并且不介意多级索引格式——那么采用 groupby 结合 value_counts 会更加轻便灵活:
percentages = df.groupby('Bus_no.')['City'].value_counts(normalize=True).mul(100).round(2)
print(percentages)
输出:
Bus_no. City
3412. Mumbai 66.67
Kolkata 33.33
5516. Kolkata 100.00
7658. Chennai 50.00
Nagpur 50.00
Name: proportion, dtype: float64
⚠️ 注意:此结果为 Series,索引为 MultiIndex;如需转换为宽表,需额外调用
.unstack(fill_value=0),但会丢失未出现城市的列(除非手动补全)。
? 关键注意事项
- 列名大小写敏感:示例中 City 值存在大小写混用(比如 "Kolkata" vs "kolkata"),实际应用前建议统一格式:
df['City'] = df['City'].str.title()或.str.upper()。 - 缺失值处理:若原始数据包含空值(NaN),
crosstab默认会忽略这些行;如需保留,可先填充:df['City'] = df['City'].fillna('Unknown')。 - 性能提示:对于百万级大规模数据,
crosstab比多重groupby效率更高;normalize='index'底层基于向量化运算,完全无需编写循环。 - 扩展应用:这种模式不仅适用于公交线路分析——任何涉及“主键-类别”的频次占比计算场景都能套用,例如用户-商品购买占比、ID-状态分布等。
通过以上两种方法,你可以灵活生成符合业务需求的动态百分比报表:既支持全维度矩阵展示,也支持紧凑型分组统计。简单来说就是一次定义、动态计算,后续直接拿来使用即可。
