游乐游手机版
首页/编程语言/文章详情

如何用 Pandas 合并 CSV 与 Excel 文件并识别数值差异

时间:2026-05-05 22:39
面对结构不一致的CSV和Excel数据,如何一步到位地完成读取、对齐与合并,并生成一份清晰展示差异值和条件标记的新表格?本文将为你揭晓答案。 在日常的数据核对与整合工作中,我们经常面临一个典型难题:需要快速合并来自不同系统、列名不统一、日期格式各异的CSV与Excel文件,并精准定位关键数值字段之间
面对结构不一致的CSV和Excel数据,如何一步到位地完成读取、对齐与合并,并生成一份清晰展示差异值和条件标记的新表格?本文将为你揭晓答案。

在日常的数据核对与整合工作中,我们经常面临一个典型难题:需要快速合并来自不同系统、列名不统一、日期格式各异的CSV与Excel文件,并精准定位关键数值字段之间的差异。本文将以一个具体场景为例,逐步拆解这一数据处理流程。

假设您手中有两份数据源:一份是包含 test dateidvalues 1 三列的CSV文件;另一份是Excel文件,其有效表头起始于第5行,包含 iddate(格式为“月/日/年”)、values 2 三列。我们的核心目标是:通过 id 关联两条记录,统一混乱的日期格式,计算 values 2values 1 的差值,并自动标记出差值“是否超过2”。

以下是一套完整、可直接复用的Python解决方案,兼顾了代码的健壮性与可读性:

import pandas as pd

# 1. 分别读取 CSV 和 Excel(跳过前4行,使第5行为列名)
df_csv = pd.read_csv("test.csv")
df_excel = pd.read_excel("test.xlsx", skiprows=4)

# 2. 标准化列名,便于后续合并
df_csv = df_csv.rename(columns={"test date": "date", "values 1": "value_1"})
df_excel = df_excel.rename(columns={"values 2": "value_2"})

# 3. 统一日期格式:将 Excel 中的 date 转为 YYYY-MM-DD 字符串(与 CSV 一致)
df_excel["date"] = pd.to_datetime(df_excel["date"]).dt.strftime("%Y-%m-%d")

# 4. 基于 'id' 和 'date' 双键合并(推荐:避免仅用 id 导致多对一歧义)
merged = pd.merge(df_csv, df_excel, on=["id", "date"], how="inner")

# 5. 构建结果表,计算差异并添加布尔标记
result = merged[["date", "id", "value_1", "value_2"]].copy()
result["discrepancy"] = result["value_2"] - result["value_1"]
result["Over 2?"] = result["discrepancy"] > 2  # 自动转为布尔值,可选 .map({True: "yes", False: "no"})
print(result)

操作过程中的关键注意事项:

  • 若Excel文件的表头不在第5行,只需灵活调整 skiprows 参数即可;对于更复杂的表头结构,可考虑使用 header=None 配合 iloc 进行手动指定。
  • 使用 ["id", "date"] 双键进行合并,比仅用 id 更稳妥,能有效防止同一ID对应多个日期时产生意外的笛卡尔积,确保数据匹配的准确性。
  • pd.to_datetime(...).dt.strftime() 这一组合操作,确保了不同来源日期格式的完全对齐,避免了因字符串格式差异导致的匹配失败问题。
  • 生成的 "Over 2?" 列默认为布尔型(True/False)。若需要更直观的“是”/“否”或“yes”/“no”显示,可在最后追加一行代码进行映射转换:
    result["Over 2?"] = result["Over 2?"].map({True: "yes", False: "no"})
  • 最终的结果数据框,可以轻松导出为新的Excel文件,方便分享与存档:result.to_excel("discrepancy_report.xlsx", index=False)

这套流程清晰直接,既适合数据分析的初学者快速上手,也能高效满足日常数据稽核、自动化报表生成及数据清洗的需求。下次再遇到结构混乱的源数据时,不妨尝试运用这个方法,实现高效的数据对齐与差异分析。

来源:https://www.php.cn/faq/2311301.html
上一篇c#如何禁止窗体最大化_c#禁止窗体最大化完整指南一文搞懂 下一篇MySQL 中实现用户与所有地点的全量关联查询(含已分配/未分配状态标记)
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Java序列化中ObjectStreamField自定义字段控制详解
编程语言 · 2026-05-11

Java序列化中ObjectStreamField自定义字段控制详解

ObjectStreamField是描述序列化字段的元信息载体。通过声明serialPersistentFields数组并确保字段名、类型、顺序与类定义严格一致,可控制序列化字段。字段不匹配会导致静默反序列化失败。配合writeObject readObject方法可实现动态控制。应避免使用isUnshared、getOffset等底层方法。

实时操作系统RTOS线程调度与Java强实时变量处理对比分析
编程语言 · 2026-05-11

实时操作系统RTOS线程调度与Java强实时变量处理对比分析

实时操作系统(RTOS)通过优先级调度和中断机制确保微秒级确定性,而Java因垃圾回收、同步延迟和内存分配不确定性,难以满足强实时场景的严格时间要求,因此这类系统通常将核心逻辑交由RTOS处理。

Java并行流性能优化CollectorsgroupingByConcurrent方法详解
编程语言 · 2026-05-11

Java并行流性能优化CollectorsgroupingByConcurrent方法详解

Collectors groupingByConcurrent专为无需保持插入顺序、高并发写入的场景设计,能显著提升并行流分组性能。其底层通过所有线程直接写入同一个ConcurrentHashMap,避免了普通groupingBy的合并开销。适用于日志聚合、实时统计等高吞吐任务,但不适用于要求分组顺序的场景。使用时必须搭配并行流,且不支持自定义有序Map。在

循环队列数组实现详解头尾指针操作与取模运算实战指南
编程语言 · 2026-05-11

循环队列数组实现详解头尾指针操作与取模运算实战指南

循环队列通过数组实现,核心在于头尾指针的职责与取模运算。front指向队首,rear指向下一个空位,移动时需取模以确保回环。判空条件为front等于rear,判满则需牺牲一个存储单元。入队和出队操作后需立即取模,避免越界。动态内存管理时需注意分配与释放顺序,防止内存泄漏。

ThinkPHP入口文件配置参数修改与环境变量动态加载指南
编程语言 · 2026-05-11

ThinkPHP入口文件配置参数修改与环境变量动态加载指南

在ThinkPHP框架中动态调整数据库连接等配置参数,是许多开发者实现多环境部署的核心需求。然而,你是否曾遇到这样的困境:在入口文件中修改了配置值,刷新页面后却发现更改并未生效?这通常源于对框架配置加载机制的理解偏差。 本文将深入解析ThinkPHP配置生效的唯一正确路径,帮助你彻底规避“本地测试通