背景
在日常工作中,遇到一个非常实际的需求:批量处理个人所得税扣缴申报表的Excel文件。每张表格包含几十列,需要调整列宽、字号、自动换行以及行高,最终将所有内容压缩到一张A4纸中并导出为PDF。文件数量庞大——6个年度文件夹,共计63个.xls文件——如果手动逐个调整,恐怕会“累到崩溃也无法完成”。

初看之下,这个需求似乎并不复杂。但在实际开发过程中,还是遇到了不少坑,尤其是.xls这种旧格式以及合并单元格带来的麻烦。通常,Python处理Excel数据很常见,但专门用于调整表格格式的场景确实不多见。因此,本文详细记录了完整的开发过程,希望能为有类似需求的朋友提供一些参考。
需求梳理
首先来看原始表格的结构:
Row 1-4: 标题/公司信息 Row 5-7: 三级合并表头(跨行跨列合并) Row 8: 列序号行 Row 9起: 数据行(每个文件1~47行不等) Row N: 合计行 Row N+1起: 声明/签章等
总共有51列。关键列包括:序号、姓名、身份证件类型、身份证件号码、纳税人识别号、所得项目,以及大量金额/税率列。由于需要适配A4横向排版,所有列都必须显示出来。我先手动调整了一版,然后从中总结出规律。
格式要求:
- 固定列宽:序号2.25、姓名4.5、身份证件类型4.84、身份证件号码5.33、纳税人识别号5.81、是否为非居民个人2.5、所得项目5.04(单位:字符)
- 动态列宽:其余列根据合计行值的字符长度决定,映射关系如下:
| 字符数 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
|---|---|---|---|---|---|---|---|
| 宽度 | 3 | 4.18 | 4.46 | 5.04 | 5.46 | 6.2 | 6.64 |
- 合计值为"-"时,查询数据行最长值来确定宽度;不足4字符统一设置为3字符宽
- 字号9号+自动换行:姓名、身份证件类型、身份证件号码、纳税人识别号(仅数据行,表头不改)
- 自动换行(不改字号):所得项目列
- 行高:数据行33.8磅,合计行21磅
- 导出PDF:A4横向,所有列缩放至一页宽,左右边距设置为极限最小值
技术选型:三方案对比
方案一:xlrd + xlwt(❌ 失败)
最初想到的自然是经典的xlrd读取与xlwt写入组合。毕竟.xls是旧格式,这两个库堪称标配。
然而,问题接踵而至。
第一个障碍是中文编码问题——xlrd读取的中文在控制台输出时全是乱码。解决方法倒很简单:写入到UTF-8文件,而不直接打印到控制台。
真正的大坑在于样式复制。xlrd读取的Font对象与xlwt的Font对象属性不兼容,例如:
# xlrd Font 有的属性,xlwt Font 没有: old_font.charset # xlwt.Font 不支持 old_font.indent # xlrd XFAlignment 也没有 # 类型不匹配: old_font.underline_type # xlrd 用这个 new_font.underline # xlwt 用这个
更严重的问题是:xlwt写入时无法保留原有样式。即使小心翼翼地复制每个样式属性,合并单元格的边框、背景色、对齐方式也极易丢失。对于这种包含三级合并表头且大量边框的报表而言,样式丢失完全不可接受。
# 典型报错 AttributeError: 'Font' object has no attribute 'charset' AttributeError: 'XFAlignment' object has no attribute 'indent'
结论:xlrd/xlwt适合简单表格的读写,但在需要精确保留原有样式的场景下,问题太多,果断放弃。
方案二:openpyxl(❌ 不可行)
openpyxl在处理.xlsx格式方面确实非常强悍,API友好且样式控制功能完善。但问题在于——它不支持.xls格式。
从所得税系统导出的文件本身就是.xls。如果先转成.xlsx再处理,就会引入额外步骤,而且转换过程同样可能丢失格式。
方案三:win32com(Excel COM接口)(✅ 成功)
最终选择的是pywin32调用Excel的COM接口。本质上就是用Python操控Excel应用程序本身,与在Excel中手动操作完全一致。
核心优势:
- 原生支持
.xls格式读写 - 格式零丢失——因为是Excel自身在操作
- 精确控制每一个格式属性
- 最后可直接调用
ExportAsFixedFormat导出PDF
import win32com.client as win32
excel = win32.Dispatch('Excel.Application')
excel.Visible = False
excel.DisplayAlerts = False
wb = excel.Workbooks.Open(r'D:pathtofile.xls')
ws = wb.Worksheets(1)
# 设置列宽——仅需一行代码
ws.Cells(1, col).EntireColumn.ColumnWidth = 4.5
# 设置字号和自动换行——同样一行搞定
cell.Font.Size = 9
cell.WrapText = True
# 导出PDF
ws.ExportAsFixedFormat(Type=0, Filename=pdf_path)
简洁得令人难以置信。
开发过程中遇到的关键问题
问题1:UsedRange在合并单元格上翻车
最初使用ws.UsedRange.Rows.Count和ws.UsedRange.Columns.Count来获取行数和列数。但合并单元格会导致这些属性行为异常——返回值不准确甚至直接报错。
解决方案: 改用Cells(65536, 1).End(-4162).Row(相当于Excel中的Ctrl+↑)来定位最后一行,或者直接遍历查找。
def get_total_row(ws):
"""查找合计行(列A含'合'和'计')"""
for row in range(1, 100):
val = ws.Cells(row, 1).Value
if val is not None and '合' in str(val) and '计' in str(val):
return row
return None
问题2:DisplayAlerts在某些Excel版本上报错
excel.DisplayAlerts = False # 部分环境下抛异常
解决方案: 用try/except包裹,不影响核心功能。
问题3:PDF只导出了第一页(最隐蔽的Bug)
这个Bug是在处理完成后核对数据时才发现的。多页的Excel文件导出PDF后,只有第一页的内容。
原因是在ExportAsFixedFormat中多写了两个参数:
# ❌ 错误写法——只导出第1页到第1页
ws.ExportAsFixedFormat(
Type=0,
Filename=pdf_path,
From=1, # ← 罪魁祸首
To=1, # ← 罪魁祸首
...
)
# ✅ 正确写法——去掉From和To,默认导出全部页面
ws.ExportAsFixedFormat(
Type=0,
Filename=pdf_path,
IgnorePrintAreas=False,
OpenAfterPublish=False
)
教训:复制粘贴API示例代码时,一定要理解每个参数的含义。 From和To看似是“起始页”的设定,但默认行为就是导出全部,无需显式指定。
问题4:.bat启动脚本的中文乱码
脚本写好后,将程序文件放在需要处理的表格文件夹,双击.py文件运行——结果闪退。后来发现原因:代码是在虚拟环境中开发的,但放到文件夹中直接运行时,启动的是系统默认的Python,而系统Python未安装pywin32。
为了省事,干脆写了一个.bat文件,思路是指定已安装好依赖的Python路径。但第一个版本全部使用中文注释和echo,结果:
'嚭閿欙紒璇锋鏌ラ敊璇俊鎭悧' 不是内部或外部命令
原因: Windows的cmd.exe默认使用GBK编码,而.bat文件被保存为UTF-8编码,中文全部变成乱码并被当作命令执行。
解决方案: .bat文件仅使用纯英文/ASCII字符,彻底避免编码问题。
@echo off "%~dp0process_excel.py" 改成: "C:Users...python.exe" "%~dp0process_excel.py"
问题5:合计行值的类型不统一
同样作为数字列,有的合计值是float类型(如10754.93),有的是str类型(如'10754.93'),还有的是"-"字符串。需要统一处理才能正确计算字符长度,因此自定义了一个数字格式处理函数,便于后续复用。
def compute_width(total_val, ws, col_1based, data_rows):
s = str(total_val).strip()
if s == '' or s == '-':
# 查询数据行最长值
max_len = max(len(str(ws.Cells(r, col_1based).Value or ''))
for r in data_rows)
else:
# 统一格式化为两位小数
formatted = f'{float(total_val):.2f}' # 0 → "0.00",10754.93 → "10754.93"
char_count = len(formatted)
return WIDTH_MAP.get(char_count, 3)
经验总结
| 场景 | 推荐方案 |
|---|---|
| 简单读写xlsx,不需保留样式 | openpyxl |
| 简单读写xls,不需保留样式 | xlrd + xlwt |
| 需精确保留样式 + 修改格式 | win32com (COM) |
| 需导出PDF | win32com (COM) |
| 跨平台需求 | openpyxl (仅xlsx) |
核心心得:
- 选对工具比写对代码更重要。 在
xlrd/xlwt上折腾了半天样式问题,换用COM接口后代码量减半,功能反而更稳定可靠。 - COM接口的隐含优势。 用Python操控Excel本身就是最高保真的方案,因为它调用的就是Excel自身的能力。
.bat文件慎用中文。 在Windows环境下,批处理文件与中文编码是天然的对头,纯英文最安全。- PDF导出要验证多页场景。 单页测试通过并不代表多页也没问题,务必使用数据量大的文件进行回归测试。
写在最后
说实话,在开始编写这个程序之前,我原本打算手动调整格式并导出PDF。想着应该很快,写代码还得研究半天、调试半天。结果手动改了十来个文件,实在改不下去了——所有内容要挤进A4纸,字变得很小,眼睛都看花了。索性还是“偷个懒”,用程序来解决。所以说,但凡遇到简单重复性的工作,都值得用技术去处理。能用技术解决的,绝不动手!
