高新科技观察：多模态文档解析升温，PDF图片表格进入AI知识库

时间：2026-07-02 12:13

2026 年，企业知识库领域出现了一个显著趋势：多模态文档解析技术正在真正升温，成为 AI 落地的关键环节。过去在构建 RAG 系统时，最常见的输入来源是什么？网页、Markdown、Word 文档，再加上一些纯文本。开发者习惯于将文档切片后写入向量库，再让大模型基于召回的片段来回答问题。但在真

2026 年，企业知识库领域出现了一个显著趋势：多模态文档解析技术正在真正升温，成为 AI 落地的关键环节。

过去在构建 RAG 系统时，最常见的输入来源是什么？网页、Markdown、Word 文档，再加上一些纯文本。开发者习惯于将文档切片后写入向量库，再让大模型基于召回的片段来回答问题。

但在真实的企业场景中，大量知识根本就不是纯文本。合同通常是 PDF，报表是 Excel，方案是 PPT，设备说明书里塞满了图片，财务材料离不开表格，技术文档中到处都是流程图和截图。如果 AI 知识库只能识别文字，这些关键信息就等于被屏蔽了。

因此，将 PDF、图片、表格这类“非标”内容统一转化为结构化数据，再喂给大模型，已成为一个绕不开的工程挑战。简单来说，企业 AI 的数据入口正在急剧拓宽。

一、为什么多模态解析如此重要？

企业资料长什么样，大家心里都有数：

PDF 里混着章节标题、正文与表格；
PPT 里包含页面结构、图示和说明文字；
图片可能是截图、流程图，也可能直接内嵌文字；
Excel 里是成堆的指标、金额、时间和分类；
扫描件里则是合同、发票和签章。

这些内容只要无法被解析，就等于进不了 AI 系统。因此，AI 知识库必须从“文本解析”升级为“文档解析”，才能覆盖企业真实数据。

下面用 Python 编写一个简化版的多模态文档解析流程，重点展示结构设计与处理链路，旨在抛砖引玉。

二、基础结构：定义文档块

第一步是定义文档块结构。无论原始内容来自 PDF、图片还是表格，最终都能被转化成一个统一的文档块。

import json
import hashlib
from datetime import datetime
from typing import List, Dict


class DocumentBlock:
    def __init__(
        self,
        block_type: str,
        content: str,
        page: int = None,
        position: Dict = None,
        metadata: Dict = None
    ):
        self.block_type = block_type
        self.content = content
        self.page = page
        self.position = position or {}
        self.metadata = metadata or {}
        self.block_id = self.build_id()
        self.created_at = datetime.now().isoformat()

    def build_id(self):
        raw = f"{self.block_type}-{self.page}-{self.content[:50]}"
        return hashlib.md5(raw.encode("utf-8")).hexdigest()

    def to_dict(self):
        return {
            "block_id": self.block_id,
            "block_type": self.block_type,
            "content": self.content,
            "page": self.page,
            "position": self.position,
            "metadata": self.metadata,
            "created_at": self.created_at
        }

统一文档块是多模态解析的核心。一旦数据变成统一结构，后续的切分、检索、摘要、问答等环节都会变得非常顺畅。

三、模拟 PDF 解析：提取页面文本

第二步是模拟 PDF 页面解析。这里用列表来模拟 PDF 页面的文本内容，真实场景下可直接替换为 PDF 解析库或 OCR 服务。

def parse_pdf_pages(pdf_pages: List[str]):
    blocks = []

    for page_index, page_text in enumerate(pdf_pages, start=1):
        lines = page_text.split("\n")

        for line_index, line in enumerate(lines):
            line = line.strip()
            if not line:
                continue

            block_type = "paragraph"
            if len(line) < 30 and not line.endswith("。"):
                block_type = "title"

            block = DocumentBlock(
                block_type=block_type,
                content=line,
                page=page_index,
                position={
                    "line": line_index
                },
                metadata={
                    "source_type": "pdf"
                }
            )
            blocks.append(block.to_dict())

    return blocks

PDF 解析的难点在于保留文档结构。标题、正文、页码，乃至行与行之间的位置关系，都会直接影响后续问答系统的效果。

四、模拟表格解析：转成可读文本

第三步是模拟表格解析。表格不能当作普通文本处理，否则列名和行关系很容易丢失。

def parse_table(table_name: str, headers: List[str], rows: List[List[str]]):
    blocks = []

    for row_index, row in enumerate(rows):
        values = []
        for header, value in zip(headers, row):
            values.append(f"{header}: {value}")
        content = f"{table_name}，第 {row_index   1} 行，"   "；".join(values)

        block = DocumentBlock(
            block_type="table_row",
            content=content,
            page=None,
            position={
                "row": row_index   1
            },
            metadata={
                "source_type": "table",
                "table_name": table_name,
                "headers": headers
            }
        )
        blocks.append(block.to_dict())

    return blocks

表格解析的关键，是把结构化数据转成大模型能理解的自然语言描述。这样既保留了字段之间的关联，又方便后续检索。

五、模拟图片 OCR：提取图片文字

第四步是模拟图片 OCR。真实系统中使用 OCR 模型来识别，这里用模拟函数示意。

def parse_image_ocr(image_name: str, ocr_text: str):
    blocks = []
    lines = ocr_text.split("\n")

    for index, line in enumerate(lines):
        line = line.strip()
        if not line:
            continue

        block = DocumentBlock(
            block_type="image_text",
            content=line,
            page=None,
            position={
                "line": index   1
            },
            metadata={
                "source_type": "image",
                "image_name": image_name
            }
        )
        blocks.append(block.to_dict())

    return blocks

图片解析能让截图、扫描件、流程图说明都进入 AI 知识库。对于企业里大量历史资料、合同扫描件和产品截图来说，这一步的价值尤其巨大。

六、内容清洗：过滤低质量块

第五步是内容清洗。并非所有解析出来的内容都适合进入知识库，过短的、重复的、无意义的片段需要果断过滤。

def clean_blocks(blocks):
    cleaned = []
    seen = set()

    for block in blocks:
        content = block["content"].strip()
        if len(content) < 5:
            continue

        content_hash = hashlib.md5(content.encode("utf-8")).hexdigest()
        if content_hash in seen:
            continue

        seen.add(content_hash)
        block["content"] = content
        cleaned.append(block)

    return cleaned

清洗是多模态文档解析进入知识库前的关键步骤。如果向量库里塞满了重复和无意义的片段，最终效果会大打折扣。

七、构建知识片段：统一输出格式

第六步是把文档块转成知识片段。这里保留了 block 类型、来源类型、页码和内容，方便后续检索时展示引用信息。

def build_knowledge_chunks(blocks):
    chunks = []

    for index, block in enumerate(blocks):
        chunk = {
            "chunk_id": block["block_id"],
            "chunk_index": index,
            "text": block["content"],
            "block_type": block["block_type"],
            "source_type": block["metadata"].get("source_type"),
            "page": block.get("page"),
            "metadata": block["metadata"],
            "created_at": datetime.now().isoformat()
        }
        chunks.append(chunk)

    return chunks

统一的知识片段可以直接塞进 RAG 系统。无论数据来自 PDF、图片还是表格，最终都能通过同一套检索接口进行调用。

八、生成解析报告

第七步是生成解析报告。报告能统计不同类型文档块的数量，帮助团队评估本次解析的质量。

def generate_parse_report(chunks):
    type_count = {}
    source_count = {}

    for chunk in chunks:
        block_type = chunk["block_type"]
        source_type = chunk["source_type"]
        type_count[block_type] = type_count.get(block_type, 0)   1
        source_count[source_type] = source_count.get(source_type, 0)   1

    return {
        "report_name": "多模态文档解析报告",
        "total_chunks": len(chunks),
        "block_type_count": type_count,
        "source_type_count": source_count,
        "sample_chunks": chunks[:5],
        "generate_time": datetime.now().isoformat()
    }

有了详细的解析报告，团队可以快速判断文档是否被正确解析。如果表格或图片内容未被提取出来，就应当调整解析策略。

九、运行示例：解析 PDF、表格和图片

最后编写一个完整示例，将上述流程串联起来运行一遍。

if __name__ == "__main__":
    pdf_pages = [
        """
企业 AI 知识库建设方案
本方案介绍 RAG 系统的数据接入、内容清洗和向量检索流程。
系统需要支持 PDF、图片和表格等多种数据来源。
""",
        """
技术架构
数据进入系统后，需要先解析为统一文档块。
随后进行清洗、切分、向量化和索引构建。
"""
    ]

    table_headers = ["指标", "数值", "说明"]

    table_rows = [
        ["解析文档数", "120", "本周新增解析文档"],
        ["失败数量", "3", "主要由图片质量过低导致"],
        ["平均耗时", "2.3秒", "单文档平均解析时间"]
    ]

    image_text = """
系统流程图
上传文档 -> 内容解析 -> 向量入库 -> 智能问答
"""

    all_blocks = []

    all_blocks.extend(
        parse_pdf_pages(pdf_pages)
    )

    all_blocks.extend(
        parse_table(
            table_name="文档解析统计表",
            headers=table_headers,
            rows=table_rows
        )
    )

    all_blocks.extend(
        parse_image_ocr(
            image_name="architecture.png",
            ocr_text=image_text
        )
    )

    cleaned_blocks = clean_blocks(all_blocks)
    chunks = build_knowledge_chunks(cleaned_blocks)
    report = generate_parse_report(chunks)

    print(json.dumps(
        report,
        ensure_ascii=False,
        indent=2
    ))