Python提取Word表格并导出为Excel的详细步骤教程

时间：2026-05-11 09:32

在日常办公与数据处理工作中，将Word文档中的表格高效、准确地迁移到Excel中进行计算与分析，是一项常见且重要的需求。面对数十页乃至上百页的文档，传统的手动复制粘贴不仅耗时费力，还极易引发数据错位、格式丢失等问题。那么，是否存在一种方法，能够彻底告别这种低效重复劳动，实现一键自动化处理呢？答案是肯

为何选择自动化方案？主流技术方案深度对比

针对Word表格导出的需求，开发者有多种技术路径可选，例如手动操作、使用VBA宏等。但究竟哪种方案最适合您的项目？这需要从执行效率、环境依赖、处理能力及开发成本等多个维度进行综合评估。

手动复制粘贴：仅适用于处理极少量、结构极其简单的表格。其弊端非常突出：无法保持长文本的段落格式，一旦遇到合并单元格等复杂布局，数据极易出现错乱，可靠性差。
VBA (Visual Basic for Applications)：作为Office内置的脚本语言，VBA能够实现Word表格的快速导出。但其语法相对老旧，调试不便。最关键的是，它完全依赖Microsoft Office环境，在未安装Office的服务器或Linux系统上无法运行，跨平台与部署灵活性受限。
开源Python库（如python-docx）：此类库提供了较高的灵活性，但“能力越强，责任越大”。在处理嵌套表格、复杂的行列合并映射时，通常需要开发者编写大量底层逻辑代码，开发门槛和后期维护成本较高。
专业类库（Spire系列组件）：这类工具功能全面，API设计简洁直观。其核心优势在于运行独立性（无需安装Office）和高度集成化。它将复杂的Word文档对象模型解析与Excel坐标转换逻辑进行了深度封装，开发者通过简单的API调用即可精准保留原文的逻辑结构、文本格式乃至样式。

方案综合对比表：

评估维度	手动操作	VBA 宏	开源 Python 库	Spire 系列专业组件
执行效率	极低	中等	高	极高
环境依赖	需人工参与	需安装 Office	需配置多种依赖	独立运行（零依赖）
合并单元格支持	差（易乱序）	较好	一般（需自行实现逻辑）	完美支持
复杂场景适配	困难	较困难	困难	容易（API 高级封装）

综上所述，对于追求高效率、高稳定性和易于维护的企业级应用开发，采用 Spire.Doc for Python 与 Spire.XLS for Python 的组合，是目前更为推荐和高效的实战解决方案。

环境准备与库安装

在开始编写自动化脚本之前，首先需要确保您的Python环境中已装备好必要的工具库。这两个库职责明确：一个专精于解析Word文档的流式结构，另一个则擅长构建Excel的表格坐标体系。

pip install Spire.Doc
pip install Spire.XLS

您可以选择分别安装针对Word和Excel的独立组件，也可以直接安装Spire.Office for Python这个“全家桶”，它集成了文档、表格、演示文稿和PDF处理等全套功能。此外，所有组件均提供免费版本，非常适合项目初期的测试与学习。

Python实现Word表格导出Excel的完整步骤

为了清晰地理解整个自动化导出流程，我们可以将其拆解为以下几个核心步骤，逐步实现。

1. 导入必要的Python库

编写脚本的第一步是导入所需的模块。我们需要引入Spire的核心模块及其通用常量，这样才能在代码中调用其强大的文档解析与工作簿构建引擎。

from spire.doc import *
from spire.doc.common import *
from spire.xls import *
from spire.xls.common import *
import os

2. 初始化文档对象并加载源文件

接下来，分别创建用于处理Word的Document对象和处理Excel的Workbook对象。然后，使用LoadFromFile方法加载目标Word文档。同时，调用Worksheets.Clear()方法清空工作簿中默认生成的空白工作表，为后续的数据导入创造一个干净的环境。

# 创建 Word 文档对象并加载文件
document = Document()
document.LoadFromFile("E:/input/项目进度.docx")

# 创建 Excel 工作簿并清空默认工作表
workbook = Workbook()
workbook.Worksheets.Clear()

3. 遍历Word文档的多层级结构

Word文档采用节(Section)、表(Table)、行(Row)、单元格(Cell)的层级结构存储数据。我们需要通过嵌套循环来逐层遍历。每发现一个表格，就通过workbook.Worksheets.Add()动态创建一个新的Excel工作表，并使用递增的索引sheet_index为其自动命名，实现“一个Word表格对应一个Excel工作表”的清晰管理。

sheet_index = 0
for s in range(document.Sections.Count):
    section = document.Sections.get_Item(s)
    tables = section.Tables

    for t in range(tables.Count):
        table = tables.get_Item(t)
        # 动态创建工作表并递增索引
        sheet = workbook.Worksheets.Add(f"Table_{sheet_index + 1}")
        # ... (后续数据提取)
        sheet_index += 1

4. 提取单元格文本并实现格式映射

这里有一个关键细节：Word中的一个单元格可能包含多个段落。因此，我们需要遍历单元格内的Paragraphs集合，使用换行符\n将各个段落的文本拼接起来，以保留原始的段落结构。最后，通过设置Style.WrapText = True，启用Excel单元格的自动换行功能，确保文本内容完整显示。

# 遍历行与列
for r in range(table.Rows.Count):
    row = table.Rows.get_Item(r)
    for c in range(row.Cells.Count):
        cell = row.Cells.get_Item(c)
        
        cell_text = ""
        for p in range(cell.Paragraphs.Count):
            paragraph = cell.Paragraphs.get_Item(p)
            cell_text += paragraph.Text.strip() + "\n"

        # 写入 Excel 对应坐标并设置换行
        sheet.Range[r + 1, c + 1].Text = cell_text.strip()
        sheet.Range[r + 1, c + 1].Style.WrapText = True

5. 自动化布局优化与资源释放

所有数据填充完毕后，利用AutoFitColumns()和AutoFitRows()方法，让程序自动根据单元格内容调整列宽和行高，使生成的Excel表格更加美观易读。最后，务必记得关闭文档并释放工作簿对象，及时回收系统资源。

完整可运行的Python代码示例

将上述所有步骤整合，即可得到下面这个高效、健壮的Word表格导出脚本。您可以直接复制使用或根据需求进行调整。

from spire.doc import *
from spire.doc.common import *
from spire.xls import *
from spire.xls.common import *
import os

# 创建 Word 文档对象并加载文件
document = Document()
document.LoadFromFile("/input/项目进度.docx")

# 创建 Excel 工作簿并删除默认工作表
workbook = Workbook()
workbook.Worksheets.Clear()

# 遍历 Word 文档中的所有节
sheet_index = 0

for s in range(document.Sections.Count):
    section = document.Sections.get_Item(s)

    # 获取当前节中的所有表格
    tables = section.Tables

    for t in range(tables.Count):

        # 获取当前表格
        table = tables.get_Item(t)
        # 新建工作表
        sheet = workbook.Worksheets.Add(f"Table_{sheet_index + 1}")

        # 遍历表格行
        for r in range(table.Rows.Count):
            row = table.Rows.get_Item(r)

            # 遍历单元格
            for c in range(row.Cells.Count):
                cell = row.Cells.get_Item(c)

                # 提取单元格中的文本
                cell_text = ""
                for p in range(cell.Paragraphs.Count):
                    paragraph = cell.Paragraphs.get_Item(p)
                    cell_text += paragraph.Text.strip() + "\n"

                # 去除末尾换行
                cell_text = cell_text.strip()

                # 写入 Excel 单元格
                sheet.Range[r + 1, c + 1].Text = cell_text
                # 设置自动换行
                sheet.Range[r + 1, c + 1].Style.WrapText = True

        # 自动调整列宽行高
        sheet.AllocatedRange.AutoFitColumns()
        sheet.AllocatedRange.AutoFitRows()
        sheet_index += 1

# 保存为 Excel 文件
workbook.Sa veToFile("/output/word表格.xlsx", ExcelVersion.Version2016)
document.Close()
workbook.Dispose()

为了更直观地展示转换效果，下图对比了原始Word文档与通过Python脚本提取后生成的Excel表格：

Python如何提取Word文档中的表格并导出为Excel

总结

通过Python结合Spire.Doc与Spire.XLS这两个专业库，我们仅用数十行代码就高效解决了复杂的Word文档表格提取与导出难题。该方案不仅完美保留了原始数据的段落结构和文本格式，还通过自动化布局优化显著提升了结果文件的可用性与美观度。如果您正面临大批量文档处理的自动化需求，这条更专业、更稳定的技术路径，无疑是值得尝试的高效选择。

来源：https://www.jb51.net/python/363604cb8.htm

Python