Pandas按公交线路分组动态计算城市占比

时间：2026-07-03 06:52

在数据分析工作中，经常需要根据多个维度计算“相对频率”——例如每条公交线路在不同城市出现的次数占比。这个需求看似简单，但实际操作中稍不注意就容易走弯路。本文将深入讲解如何利用 pandas 高效完成这一任务，既支持展示全部城市列（含零占比），也提供仅显示非零结果的精简版本。先看一个具体场景：我们有

在数据分析工作中，经常需要根据多个维度计算“相对频率”——例如每条公交线路在不同城市出现的次数占比。这个需求看似简单，但实际操作中稍不注意就容易走弯路。本文将深入讲解如何利用 pandas 高效完成这一任务，既支持展示全部城市列（含零占比），也提供仅显示非零结果的精简版本。

先看一个具体场景：我们有一个数据框，包含两列——公交线路编号（Bus_no.）和所属城市（City）。目标是：针对每条公交线路，统计其在各个城市的出现频次，并转换为该线路总记录数的百分比。举例来说，线路 3412. 总共出现 3 次，其中 Kolkata 1 次、Mumbai 2 次，那么占比分别为 33.33% 和 66.67%。

Pandas 中实现按公交线路分组的城市占比动态计算（百分比统计）

✅ 推荐方案：pd.crosstab + 归一化（含全部城市）

当我们需要生成一个固定列结构的矩阵表格——所有城市作为列，即使某条线路未出现也显示 0.0%——此时 pd.crosstab 是最直接高效的实现方式：

import pandas as pd

# 构建示例数据集
df = pd.DataFrame({
    'Bus_no.': ['3412.', '7658.', '3412.', '5516.', '7658.', '3412.'],
    'City': ['Kolkata', 'Nagpur', 'Mumbai', 'Kolkata', 'Chennai', 'Mumbai']
})

# 动态计算每条线路在各城市的百分比（行归一化）
result = (
    pd.crosstab(
        index=df['Bus_no.'],
        columns=df['City'],
        normalize='index'  # 按行（即每个 Bus_no.）归一化
    )
    .mul(100)            # 转换为百分比格式
    .round(2)            # 保留两位小数
    .reset_index()       # 将 Bus_no. 变为普通列
    .rename_axis(columns=None)  # 清除列索引名称
)

print(result)

输出结果：

  Bus_no.  Chennai  Kolkata  Mumbai  Nagpur
0   3412.      0.0    33.33   66.67     0.0
1   5516.      0.0   100.00     0.0     0.0
2   7658.     50.0     0.00     0.0    50.0

✅ 优势：自动覆盖全部城市（Chennai, Kolkata, Mumbai, Nagpur），生成标准 DataFrame，便于后续导出或可视化呈现。

⚙️ 替代方案：groupby().value_counts()（仅非零项）

如果只需要精简结果——跳过那些 0% 的记录，并且不介意多级索引格式——那么采用 groupby 结合 value_counts 会更加轻便灵活：

percentages = df.groupby('Bus_no.')['City'].value_counts(normalize=True).mul(100).round(2)
print(percentages)

输出：

Bus_no.  City   
3412.    Mumbai      66.67
         Kolkata     33.33
5516.    Kolkata    100.00
7658.    Chennai     50.00
         Nagpur      50.00
Name: proportion, dtype: float64

⚠️ 注意：此结果为 Series，索引为 MultiIndex；如需转换为宽表，需额外调用 .unstack(fill_value=0)，但会丢失未出现城市的列（除非手动补全）。

? 关键注意事项

列名大小写敏感：示例中 City 值存在大小写混用（比如 "Kolkata" vs "kolkata"），实际应用前建议统一格式：df['City'] = df['City'].str.title() 或 .str.upper()。
缺失值处理：若原始数据包含空值（NaN），crosstab 默认会忽略这些行；如需保留，可先填充：df['City'] = df['City'].fillna('Unknown')。
性能提示：对于百万级大规模数据，crosstab 比多重 groupby 效率更高；normalize='index' 底层基于向量化运算，完全无需编写循环。
扩展应用：这种模式不仅适用于公交线路分析——任何涉及“主键-类别”的频次占比计算场景都能套用，例如用户-商品购买占比、ID-状态分布等。