如何用 Pandas 合并 CSV 与 Excel 文件并识别数值差异
面对结构不一致的CSV和Excel数据,如何一步到位地完成读取、对齐与合并,并生成一份清晰展示差异值和条件标记的新表格?本文将为你揭晓答案。
在日常的数据核对与整合工作中,我们经常面临一个典型难题:需要快速合并来自不同系统、列名不统一、日期格式各异的CSV与Excel文件,并精准定位关键数值字段之间的差异。本文将以一个具体场景为例,逐步拆解这一数据处理流程。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
假设您手中有两份数据源:一份是包含 test date、id、values 1 三列的CSV文件;另一份是Excel文件,其有效表头起始于第5行,包含 id、date(格式为“月/日/年”)、values 2 三列。我们的核心目标是:通过 id 关联两条记录,统一混乱的日期格式,计算 values 2 与 values 1 的差值,并自动标记出差值“是否超过2”。
以下是一套完整、可直接复用的Python解决方案,兼顾了代码的健壮性与可读性:
import pandas as pd
# 1. 分别读取 CSV 和 Excel(跳过前4行,使第5行为列名)
df_csv = pd.read_csv("test.csv")
df_excel = pd.read_excel("test.xlsx", skiprows=4)
# 2. 标准化列名,便于后续合并
df_csv = df_csv.rename(columns={"test date": "date", "values 1": "value_1"})
df_excel = df_excel.rename(columns={"values 2": "value_2"})
# 3. 统一日期格式:将 Excel 中的 date 转为 YYYY-MM-DD 字符串(与 CSV 一致)
df_excel["date"] = pd.to_datetime(df_excel["date"]).dt.strftime("%Y-%m-%d")
# 4. 基于 'id' 和 'date' 双键合并(推荐:避免仅用 id 导致多对一歧义)
merged = pd.merge(df_csv, df_excel, on=["id", "date"], how="inner")
# 5. 构建结果表,计算差异并添加布尔标记
result = merged[["date", "id", "value_1", "value_2"]].copy()
result["discrepancy"] = result["value_2"] - result["value_1"]
result["Over 2?"] = result["discrepancy"] > 2 # 自动转为布尔值,可选 .map({True: "yes", False: "no"})
print(result)
操作过程中的关键注意事项:
- 若Excel文件的表头不在第5行,只需灵活调整
skiprows参数即可;对于更复杂的表头结构,可考虑使用header=None配合iloc进行手动指定。 - 使用
["id", "date"]双键进行合并,比仅用id更稳妥,能有效防止同一ID对应多个日期时产生意外的笛卡尔积,确保数据匹配的准确性。 pd.to_datetime(...).dt.strftime()这一组合操作,确保了不同来源日期格式的完全对齐,避免了因字符串格式差异导致的匹配失败问题。- 生成的
"Over 2?"列默认为布尔型(True/False)。若需要更直观的“是”/“否”或“yes”/“no”显示,可在最后追加一行代码进行映射转换:result["Over 2?"] = result["Over 2?"].map({True: "yes", False: "no"}) - 最终的结果数据框,可以轻松导出为新的Excel文件,方便分享与存档:
result.to_excel("discrepancy_report.xlsx", index=False)。
这套流程清晰直接,既适合数据分析的初学者快速上手,也能高效满足日常数据稽核、自动化报表生成及数据清洗的需求。下次再遇到结构混乱的源数据时,不妨尝试运用这个方法,实现高效的数据对齐与差异分析。
相关攻略
告别手动排序:用RANK函数搞定Excel跨工作表排名 在日常工作和学习中,Excel的数据排名功能大家肯定不陌生。单张表格内的排名操作,对许多朋友来说已是轻车熟路。然而,当数据分散在多个工作表中,需要跨表进行综合排名时,是否感觉有点无从下手?别担心,今天我们就来彻底解决这个问题,掌握跨表排名的核心
Excel提效 No 047:一句话搞定数据排名与百分位 从此告别手动排序填排名,也无需再写复杂的RANK和PERCENTRANK公式。一句话,就能驱动整个数据排名与百分位的分析流程。 目录 你是否也遇到过这些问题 处理效果 1 前置准备 2 超简单AI自动化解决方案 第1步:准备好你的原始数据
目录 你是否也遇到过这些问题 | 处理效果 | 1 前置准备 | 2 超简单AI自动化解决方案 | 第1步:准备好你的原始数据 | 第2步:针对指定的文件下达指令 | 第3步:验收 | 还能解决这些同类问题 | 指令为什么这么有用? | 更多场景直接抄作业 | 1 按产品类别统计销售额 | 2
Sublime Text无法预览 xlsx文件,仅能通过配置和插件高效处理CSV:需手动绑定CSV语法、匹配编码、禁用大文件高亮,并谨慎使用AlignTab或CSVy对齐;超50MB、含换行符或需统计分析时应换用VS Code、csvkit或Python。 开门见山地说,Sublime Text 本
如何解决读取Excel表格的问题?使用Composer引入PhpSpreadsheet! 别再折腾PHPExcel了,手写fgetcsv去解析 xlsx文件更是条死胡同——它本质上根本不是CSV格式。眼下最稳妥、最一劳永逸的方案,就是通过Composer安装PhpSpreadsheet,并确保基础环
热门专题
热门推荐
红米Note 11 Pro系统升级,为何坚持要求连接Wi-Fi? 当红米Note 11 Pro收到MIUI或澎湃OS的系统更新推送时,官方总会明确提示:整个过程请在Wi-Fi网络环境下完成。这项要求并非随意设定,而是基于清晰的技术与体验考量。一次完整的系统升级包,其大小通常在2GB至4GB之间。如果
小米13 Ultra的NFC功能深度解析:它如何重新定义“全场景智能交互”? 在旗舰手机领域,NFC功能看似已成为标配,但体验却千差万别。小米13 Ultra所搭载的全功能NFC方案,在“全能”与“好用”两个维度上树立了新的标杆。它不仅无缝集成了公交卡模拟、门禁卡复制、数字车钥匙等核心生活服务,更全
嵌入式消毒柜电源插座安装指南:隐蔽式布局提升安全与美观 在规划嵌入式消毒柜的安装方案时,电源插座的布局方式直接影响到最终的整体效果与安全性。正确的做法是避免插座外露,采用隐蔽式安装。根据国家《住宅厨房设计规范》及主流厨电品牌的安装标准,推荐将插座预留在消毒柜后方或侧方的墙体内部,安装高度宜控制在距地
是的,魔音(Beats)耳机充电状态一目了然,指示灯明确显示 当你为Beats头戴式耳机充电时,如何判断它是否已经充满?答案就藏在机身自带的五段式LED电量指示灯里。在充电过程中,这排指示灯会持续闪烁,实时反馈充电进度。一旦所有五个指示灯全部转为稳定常亮、不再闪烁,即代表电池已完全充满。整个充电周期
博朗剃须刀型号全解析:从编码规则到选购技巧的终极指南 面对博朗剃须刀复杂的字母数字组合感到困惑?实际上,其型号命名体系逻辑严谨,是用户选购的核心依据。简单来说,型号首位的数字(1、3、5、7、9)直接代表产品系列,数字越大,通常意味着技术越先进、功能越全面、定位越高端。例如,顶级的9系旗舰机型普遍搭





