游乐游手机版
首页/编程语言/文章详情

Python批量调整Excel格式并排版导出PDF的几种方案

时间:2026-06-26 06:55
批量处理63个 xls格式个人所得税表时,xlrd+xlwt因样式丢失失败,openpyxl不支持老旧格式,最终选用win32com调用Excel自身,完美保留样式并导出A4横向PDF。开发中需注意合并单元格定位、PDF默认导出全部页、批处理文件避免中文。选对工具比写对代码更重要。

背景

在日常工作中,遇到一个非常实际的需求:批量处理个人所得税扣缴申报表的Excel文件。每张表格包含几十列,需要调整列宽、字号、自动换行以及行高,最终将所有内容压缩到一张A4纸中并导出为PDF。文件数量庞大——6个年度文件夹,共计63个.xls文件——如果手动逐个调整,恐怕会“累到崩溃也无法完成”。

Python批量调整Excel格式并排版导出PDF的几种方案

初看之下,这个需求似乎并不复杂。但在实际开发过程中,还是遇到了不少坑,尤其是.xls这种旧格式以及合并单元格带来的麻烦。通常,Python处理Excel数据很常见,但专门用于调整表格格式的场景确实不多见。因此,本文详细记录了完整的开发过程,希望能为有类似需求的朋友提供一些参考。

需求梳理

首先来看原始表格的结构:

Row 1-4:   标题/公司信息
Row 5-7:   三级合并表头(跨行跨列合并)
Row 8:     列序号行
Row 9起:   数据行(每个文件1~47行不等)
Row N:     合计行
Row N+1起: 声明/签章等

总共有51列。关键列包括:序号、姓名、身份证件类型、身份证件号码、纳税人识别号、所得项目,以及大量金额/税率列。由于需要适配A4横向排版,所有列都必须显示出来。我先手动调整了一版,然后从中总结出规律。

格式要求:

  1. 固定列宽:序号2.25、姓名4.5、身份证件类型4.84、身份证件号码5.33、纳税人识别号5.81、是否为非居民个人2.5、所得项目5.04(单位:字符)
  2. 动态列宽:其余列根据合计行值的字符长度决定,映射关系如下:
字符数45678910
宽度34.184.465.045.466.26.64
  1. 合计值为"-"时,查询数据行最长值来确定宽度;不足4字符统一设置为3字符宽
  2. 字号9号+自动换行:姓名、身份证件类型、身份证件号码、纳税人识别号(仅数据行,表头不改)
  3. 自动换行(不改字号):所得项目列
  4. 行高:数据行33.8磅,合计行21磅
  5. 导出PDF:A4横向,所有列缩放至一页宽,左右边距设置为极限最小值

技术选型:三方案对比

方案一:xlrd + xlwt(❌ 失败)

最初想到的自然是经典的xlrd读取与xlwt写入组合。毕竟.xls是旧格式,这两个库堪称标配。

然而,问题接踵而至。

第一个障碍是中文编码问题——xlrd读取的中文在控制台输出时全是乱码。解决方法倒很简单:写入到UTF-8文件,而不直接打印到控制台。

真正的大坑在于样式复制xlrd读取的Font对象与xlwtFont对象属性不兼容,例如:

# xlrd Font 有的属性,xlwt Font 没有:
old_font.charset      # xlwt.Font 不支持
old_font.indent       # xlrd XFAlignment 也没有

# 类型不匹配:
old_font.underline_type  # xlrd 用这个
new_font.underline       # xlwt 用这个

更严重的问题是:xlwt写入时无法保留原有样式。即使小心翼翼地复制每个样式属性,合并单元格的边框、背景色、对齐方式也极易丢失。对于这种包含三级合并表头且大量边框的报表而言,样式丢失完全不可接受。

# 典型报错
AttributeError: 'Font' object has no attribute 'charset'
AttributeError: 'XFAlignment' object has no attribute 'indent'

结论:xlrd/xlwt适合简单表格的读写,但在需要精确保留原有样式的场景下,问题太多,果断放弃。

方案二:openpyxl(❌ 不可行)

openpyxl在处理.xlsx格式方面确实非常强悍,API友好且样式控制功能完善。但问题在于——它不支持.xls格式

从所得税系统导出的文件本身就是.xls。如果先转成.xlsx再处理,就会引入额外步骤,而且转换过程同样可能丢失格式。

方案三:win32com(Excel COM接口)(✅ 成功)

最终选择的是pywin32调用Excel的COM接口。本质上就是用Python操控Excel应用程序本身,与在Excel中手动操作完全一致。

核心优势:

  • 原生支持.xls格式读写
  • 格式零丢失——因为是Excel自身在操作
  • 精确控制每一个格式属性
  • 最后可直接调用ExportAsFixedFormat导出PDF
import win32com.client as win32

excel = win32.Dispatch('Excel.Application')
excel.Visible = False
excel.DisplayAlerts = False

wb = excel.Workbooks.Open(r'D:pathtofile.xls')
ws = wb.Worksheets(1)

# 设置列宽——仅需一行代码
ws.Cells(1, col).EntireColumn.ColumnWidth = 4.5

# 设置字号和自动换行——同样一行搞定
cell.Font.Size = 9
cell.WrapText = True

# 导出PDF
ws.ExportAsFixedFormat(Type=0, Filename=pdf_path)

简洁得令人难以置信。

开发过程中遇到的关键问题

问题1:UsedRange在合并单元格上翻车

最初使用ws.UsedRange.Rows.Countws.UsedRange.Columns.Count来获取行数和列数。但合并单元格会导致这些属性行为异常——返回值不准确甚至直接报错。

解决方案: 改用Cells(65536, 1).End(-4162).Row(相当于Excel中的Ctrl+↑)来定位最后一行,或者直接遍历查找。

def get_total_row(ws):
    """查找合计行(列A含'合'和'计')"""
    for row in range(1, 100):
        val = ws.Cells(row, 1).Value
        if val is not None and '合' in str(val) and '计' in str(val):
            return row
    return None

问题2:DisplayAlerts在某些Excel版本上报错

excel.DisplayAlerts = False  # 部分环境下抛异常

解决方案: 用try/except包裹,不影响核心功能。

问题3:PDF只导出了第一页(最隐蔽的Bug)

这个Bug是在处理完成后核对数据时才发现的。多页的Excel文件导出PDF后,只有第一页的内容。

原因是在ExportAsFixedFormat中多写了两个参数:

# ❌ 错误写法——只导出第1页到第1页
ws.ExportAsFixedFormat(
    Type=0,
    Filename=pdf_path,
    From=1,    # ← 罪魁祸首
    To=1,      # ← 罪魁祸首
    ...
)

# ✅ 正确写法——去掉From和To,默认导出全部页面
ws.ExportAsFixedFormat(
    Type=0,
    Filename=pdf_path,
    IgnorePrintAreas=False,
    OpenAfterPublish=False
)

教训:复制粘贴API示例代码时,一定要理解每个参数的含义。 FromTo看似是“起始页”的设定,但默认行为就是导出全部,无需显式指定。

问题4:.bat启动脚本的中文乱码

脚本写好后,将程序文件放在需要处理的表格文件夹,双击.py文件运行——结果闪退。后来发现原因:代码是在虚拟环境中开发的,但放到文件夹中直接运行时,启动的是系统默认的Python,而系统Python未安装pywin32

为了省事,干脆写了一个.bat文件,思路是指定已安装好依赖的Python路径。但第一个版本全部使用中文注释和echo,结果:

'嚭閿欙紒璇锋鏌ラ敊璇俊鎭悧' 不是内部或外部命令

原因: Windows的cmd.exe默认使用GBK编码,而.bat文件被保存为UTF-8编码,中文全部变成乱码并被当作命令执行。

解决方案: .bat文件仅使用纯英文/ASCII字符,彻底避免编码问题。

@echo off
"%~dp0process_excel.py" 改成:
"C:Users...python.exe" "%~dp0process_excel.py"

问题5:合计行值的类型不统一

同样作为数字列,有的合计值是float类型(如10754.93),有的是str类型(如'10754.93'),还有的是"-"字符串。需要统一处理才能正确计算字符长度,因此自定义了一个数字格式处理函数,便于后续复用。

def compute_width(total_val, ws, col_1based, data_rows):
    s = str(total_val).strip()
    
    if s == '' or s == '-':
        # 查询数据行最长值
        max_len = max(len(str(ws.Cells(r, col_1based).Value or ''))
                      for r in data_rows)
    else:
        # 统一格式化为两位小数
        formatted = f'{float(total_val):.2f}'  # 0 → "0.00",10754.93 → "10754.93"
        char_count = len(formatted)
    
    return WIDTH_MAP.get(char_count, 3)

经验总结

场景推荐方案
简单读写xlsx,不需保留样式openpyxl
简单读写xls,不需保留样式xlrd + xlwt
需精确保留样式 + 修改格式win32com (COM)
需导出PDFwin32com (COM)
跨平台需求openpyxl (仅xlsx)

核心心得:

  1. 选对工具比写对代码更重要。xlrd/xlwt上折腾了半天样式问题,换用COM接口后代码量减半,功能反而更稳定可靠。
  2. COM接口的隐含优势。 用Python操控Excel本身就是最高保真的方案,因为它调用的就是Excel自身的能力。
  3. .bat文件慎用中文。 在Windows环境下,批处理文件与中文编码是天然的对头,纯英文最安全。
  4. PDF导出要验证多页场景。 单页测试通过并不代表多页也没问题,务必使用数据量大的文件进行回归测试。

写在最后

说实话,在开始编写这个程序之前,我原本打算手动调整格式并导出PDF。想着应该很快,写代码还得研究半天、调试半天。结果手动改了十来个文件,实在改不下去了——所有内容要挤进A4纸,字变得很小,眼睛都看花了。索性还是“偷个懒”,用程序来解决。所以说,但凡遇到简单重复性的工作,都值得用技术去处理。能用技术解决的,绝不动手!

来源:https://www.jb51.net/python/365994nsj.htm
上一篇代码块限制局部变量作用域的实现方法 下一篇Python常用添加与删除元素API完整代码示例
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
详解如何使用Apache服务器进行防盗链配置步骤
编程语言 · 2026-06-30

详解如何使用Apache服务器进行防盗链配置步骤

Apache使用mod_rewrite模块实现图片防盗链,通过 htaccess文件配置Rewrite规则,检查HTTP_REFERER来源,若非本站域名且来源不为空,则对jpg等常见图片格式返回403禁止访问。此方法能有效阻止大多数盗链行为。

Filebeat日志转发实现步骤详解
编程语言 · 2026-06-30

Filebeat日志转发实现步骤详解

Filebeat通过配置输入源读取日志,输出目标转发至Elasticsearch或Logstash。安装后编辑filebeat yml文件,指定日志路径和输出地址。支持直接转发或经Logstash处理。通过systemctl启动并验证数据到达,可选SSL加密和多行日志合并配置。

手把手教你如何在CentOS上使用PhpStorm构建项目的详细步骤
编程语言 · 2026-06-30

手把手教你如何在CentOS上使用PhpStorm构建项目的详细步骤

在CentOS上使用PHPStorm构建项目需先准备环境:安装Java、PHP及扩展、Nginx、MariaDB并开放端口。然后安装配置PHPStorm,设置SSH解释器与Web服务器映射。导入或创建项目后安装Composer依赖,调整php ini。配置SFTP部署并同步文件,最后设置Xdebug进行调试运行。

CentOS下GitLab集成其他工具的详细配置方法与完整指南
编程语言 · 2026-06-30

CentOS下GitLab集成其他工具的详细配置方法与完整指南

在CentOS平台中,GitLab通过Webhooks、API与CI CD配置,深度集成Jenkins、SonarQube、Docker及Slack,构建代码托管、自动构建、质量检查与协作通知的自动化链路,覆盖开发、测试、部署全流程,实现从提交到上线的自动化,大幅提升团队效率与交付质量,推动开发运维一体化。

CentOS设置Node.js定时任务的方法
编程语言 · 2026-06-30

CentOS设置Node.js定时任务的方法

在CentOS上为Node js应用设置定时任务常用两种方案:systemd适合长期运行服务,需创建服务文件并配置开机自启;cron更灵活,适合定期唤醒任务,通过编辑crontab添加时间计划和执行命令。两种方法均需指定Node js路径和应用入口。