Python批量调整Excel格式并排版导出PDF的几种方案

时间：2026-06-26 06:55

批量处理63个 xls格式个人所得税表时，xlrd+xlwt因样式丢失失败，openpyxl不支持老旧格式，最终选用win32com调用Excel自身，完美保留样式并导出A4横向PDF。开发中需注意合并单元格定位、PDF默认导出全部页、批处理文件避免中文。选对工具比写对代码更重要。

背景

在日常工作中，遇到一个非常实际的需求：批量处理个人所得税扣缴申报表的Excel文件。每张表格包含几十列，需要调整列宽、字号、自动换行以及行高，最终将所有内容压缩到一张A4纸中并导出为PDF。文件数量庞大——6个年度文件夹，共计63个.xls文件——如果手动逐个调整，恐怕会“累到崩溃也无法完成”。

Python批量调整Excel格式并排版导出PDF的几种方案

初看之下，这个需求似乎并不复杂。但在实际开发过程中，还是遇到了不少坑，尤其是.xls这种旧格式以及合并单元格带来的麻烦。通常，Python处理Excel数据很常见，但专门用于调整表格格式的场景确实不多见。因此，本文详细记录了完整的开发过程，希望能为有类似需求的朋友提供一些参考。

需求梳理

首先来看原始表格的结构：

Row 1-4:   标题/公司信息
Row 5-7:   三级合并表头（跨行跨列合并）
Row 8:     列序号行
Row 9起:   数据行（每个文件1~47行不等）
Row N:     合计行
Row N+1起: 声明/签章等

总共有51列。关键列包括：序号、姓名、身份证件类型、身份证件号码、纳税人识别号、所得项目，以及大量金额/税率列。由于需要适配A4横向排版，所有列都必须显示出来。我先手动调整了一版，然后从中总结出规律。

格式要求：

固定列宽：序号2.25、姓名4.5、身份证件类型4.84、身份证件号码5.33、纳税人识别号5.81、是否为非居民个人2.5、所得项目5.04（单位：字符）
动态列宽：其余列根据合计行值的字符长度决定，映射关系如下：

字符数	4	5	6	7	8	9	10
宽度	3	4.18	4.46	5.04	5.46	6.2	6.64

合计值为"-"时，查询数据行最长值来确定宽度；不足4字符统一设置为3字符宽
字号9号+自动换行：姓名、身份证件类型、身份证件号码、纳税人识别号（仅数据行，表头不改）
自动换行（不改字号）：所得项目列
行高：数据行33.8磅，合计行21磅
导出PDF：A4横向，所有列缩放至一页宽，左右边距设置为极限最小值

技术选型：三方案对比

方案一：xlrd + xlwt（❌ 失败）

最初想到的自然是经典的xlrd读取与xlwt写入组合。毕竟.xls是旧格式，这两个库堪称标配。

然而，问题接踵而至。

第一个障碍是中文编码问题——xlrd读取的中文在控制台输出时全是乱码。解决方法倒很简单：写入到UTF-8文件，而不直接打印到控制台。

真正的大坑在于样式复制。xlrd读取的Font对象与xlwt的Font对象属性不兼容，例如：

# xlrd Font 有的属性，xlwt Font 没有：
old_font.charset      # xlwt.Font 不支持
old_font.indent       # xlrd XFAlignment 也没有

# 类型不匹配：
old_font.underline_type  # xlrd 用这个
new_font.underline       # xlwt 用这个

更严重的问题是：xlwt写入时无法保留原有样式。即使小心翼翼地复制每个样式属性，合并单元格的边框、背景色、对齐方式也极易丢失。对于这种包含三级合并表头且大量边框的报表而言，样式丢失完全不可接受。

# 典型报错
AttributeError: 'Font' object has no attribute 'charset'
AttributeError: 'XFAlignment' object has no attribute 'indent'

结论：xlrd/xlwt适合简单表格的读写，但在需要精确保留原有样式的场景下，问题太多，果断放弃。

方案二：openpyxl（❌ 不可行）

openpyxl在处理.xlsx格式方面确实非常强悍，API友好且样式控制功能完善。但问题在于——它不支持.xls格式。

从所得税系统导出的文件本身就是.xls。如果先转成.xlsx再处理，就会引入额外步骤，而且转换过程同样可能丢失格式。

方案三：win32com（Excel COM接口）（✅ 成功）

最终选择的是pywin32调用Excel的COM接口。本质上就是用Python操控Excel应用程序本身，与在Excel中手动操作完全一致。

核心优势：

原生支持.xls格式读写
格式零丢失——因为是Excel自身在操作
精确控制每一个格式属性
最后可直接调用ExportAsFixedFormat导出PDF

import win32com.client as win32

excel = win32.Dispatch('Excel.Application')
excel.Visible = False
excel.DisplayAlerts = False

wb = excel.Workbooks.Open(r'D:pathtofile.xls')
ws = wb.Worksheets(1)

# 设置列宽——仅需一行代码
ws.Cells(1, col).EntireColumn.ColumnWidth = 4.5

# 设置字号和自动换行——同样一行搞定
cell.Font.Size = 9
cell.WrapText = True

# 导出PDF
ws.ExportAsFixedFormat(Type=0, Filename=pdf_path)

简洁得令人难以置信。

开发过程中遇到的关键问题

问题1：UsedRange在合并单元格上翻车

最初使用ws.UsedRange.Rows.Count和ws.UsedRange.Columns.Count来获取行数和列数。但合并单元格会导致这些属性行为异常——返回值不准确甚至直接报错。

解决方案： 改用Cells(65536, 1).End(-4162).Row（相当于Excel中的Ctrl+↑）来定位最后一行，或者直接遍历查找。

def get_total_row(ws):
    """查找合计行（列A含'合'和'计'）"""
    for row in range(1, 100):
        val = ws.Cells(row, 1).Value
        if val is not None and '合' in str(val) and '计' in str(val):
            return row
    return None

问题2：DisplayAlerts在某些Excel版本上报错

excel.DisplayAlerts = False  # 部分环境下抛异常

解决方案： 用try/except包裹，不影响核心功能。

问题3：PDF只导出了第一页（最隐蔽的Bug）

这个Bug是在处理完成后核对数据时才发现的。多页的Excel文件导出PDF后，只有第一页的内容。

原因是在ExportAsFixedFormat中多写了两个参数：

# ❌ 错误写法——只导出第1页到第1页
ws.ExportAsFixedFormat(
    Type=0,
    Filename=pdf_path,
    From=1,    # ← 罪魁祸首
    To=1,      # ← 罪魁祸首
    ...
)

# ✅ 正确写法——去掉From和To，默认导出全部页面
ws.ExportAsFixedFormat(
    Type=0,
    Filename=pdf_path,
    IgnorePrintAreas=False,
    OpenAfterPublish=False
)

教训：复制粘贴API示例代码时，一定要理解每个参数的含义。 From和To看似是“起始页”的设定，但默认行为就是导出全部，无需显式指定。

问题4：.bat启动脚本的中文乱码

脚本写好后，将程序文件放在需要处理的表格文件夹，双击.py文件运行——结果闪退。后来发现原因：代码是在虚拟环境中开发的，但放到文件夹中直接运行时，启动的是系统默认的Python，而系统Python未安装pywin32。

为了省事，干脆写了一个.bat文件，思路是指定已安装好依赖的Python路径。但第一个版本全部使用中文注释和echo，结果：

'嚭閿欙紒璇锋鏌ラ敊璇俊鎭悧' 不是内部或外部命令

原因： Windows的cmd.exe默认使用GBK编码，而.bat文件被保存为UTF-8编码，中文全部变成乱码并被当作命令执行。

解决方案： .bat文件仅使用纯英文/ASCII字符，彻底避免编码问题。

@echo off
"%~dp0process_excel.py" 改成：
"C:Users...python.exe" "%~dp0process_excel.py"

问题5：合计行值的类型不统一

同样作为数字列，有的合计值是float类型（如10754.93），有的是str类型（如'10754.93'），还有的是"-"字符串。需要统一处理才能正确计算字符长度，因此自定义了一个数字格式处理函数，便于后续复用。

def compute_width(total_val, ws, col_1based, data_rows):
    s = str(total_val).strip()
    
    if s == '' or s == '-':
        # 查询数据行最长值
        max_len = max(len(str(ws.Cells(r, col_1based).Value or ''))
                      for r in data_rows)
    else:
        # 统一格式化为两位小数
        formatted = f'{float(total_val):.2f}'  # 0 → "0.00"，10754.93 → "10754.93"
        char_count = len(formatted)
    
    return WIDTH_MAP.get(char_count, 3)

经验总结

场景	推荐方案
简单读写xlsx，不需保留样式	openpyxl
简单读写xls，不需保留样式	xlrd + xlwt
需精确保留样式 + 修改格式	win32com (COM)
需导出PDF	win32com (COM)
跨平台需求	openpyxl (仅xlsx)

核心心得：

选对工具比写对代码更重要。 在xlrd/xlwt上折腾了半天样式问题，换用COM接口后代码量减半，功能反而更稳定可靠。
COM接口的隐含优势。 用Python操控Excel本身就是最高保真的方案，因为它调用的就是Excel自身的能力。
.bat文件慎用中文。 在Windows环境下，批处理文件与中文编码是天然的对头，纯英文最安全。
PDF导出要验证多页场景。 单页测试通过并不代表多页也没问题，务必使用数据量大的文件进行回归测试。

写在最后

说实话，在开始编写这个程序之前，我原本打算手动调整格式并导出PDF。想着应该很快，写代码还得研究半天、调试半天。结果手动改了十来个文件，实在改不下去了——所有内容要挤进A4纸，字变得很小，眼睛都看花了。索性还是“偷个懒”，用程序来解决。所以说，但凡遇到简单重复性的工作，都值得用技术去处理。能用技术解决的，绝不动手！

来源：https://www.jb51.net/python/365994nsj.htm

Python