Java与LangChain4j实现RAG文档智能拆分提升检索质量

首页

热心网友

转载

2026-05-18

在AI驱动的RAG系统开发与后端面试中，文档切分策略是衡量工程深度的关键指标。简单回答“按固定字符数截取”往往暴露了项目经验的不足。业务场景中RAG的召回效果，数据预处理的质量占据了决定性因素。切片（Chunking）策略的优劣，直接为整个系统的召回能力设定了天花板。后续无论采用多么先进的大模型或精巧的提示工程，都只能在这个上限内进行优化。

定长切分的常见误区

初学者构建RAG时，最常使用固定长度切分（Fixed-size Chunking），例如在代码中硬编码每500字符切分一次。这种方法的缺陷非常突出：它极易粗暴地割裂完整的语义。

试想处理一份复杂的司法案例分析或一份技术协议。一段核心的论述或条件条款，恰好跨越了第499和第505个字符的边界。切分工具机械地一刀切断，前半部分留在Chunk A，后半部分落入Chunk B。这两段语义残缺的文本分别生成向量后，其原本的含义已被破坏。无论用户的查询匹配前半段还是后半段的特征，检索系统都难以准确定位到这段信息，导致召回率低下。

方案一：基于标点与段落的递归切分

这是当前最主流且性价比极高的基础方案。其核心思想是放弃僵化的字数限制，遵循自然语言本身的“结构韵律”进行分割。

具体实施时，需设定一个优先级递减的递归规则：首先尝试按双换行符（\n\n，通常标识段落）切分；若切分后的段落仍超过设定长度，则降级按单换行符（\n）切；若仍过长，则继续按句号（。）切分；作为最后手段，才考虑按逗号等标点切分。这种方法能最大限度地保持基础语义单元的完整性。

方案二：设置重叠窗口以保持上下文

即使采用了递归切分，文本块边界处的语境断裂问题依然存在。此时，引入重叠窗口（Overlap）是有效的解决方案，通常设置重叠比例为10%至20%。例如，让Chunk 2的起始部分，重复包含Chunk 1末尾的一小段内容，通过这种有设计的冗余来强制维持上下文的连贯性。

这里需要注意一个常见错误：开发者习惯直接用substring进行字符串截取。但大模型的处理单位是Token，对于中文，500个字符可能对应300个Token，也可能对应600个Token，取决于分词结果。因此，必须使用与目标Embedding模型相匹配的分词器（Tokenizer）来进行精确的Token级别切分。

使用LangChain4j框架可以简洁地实现：

import dev.langchain4j.data.document.Document;
import dev.langchain4j.data.document.DocumentSplitter;
import dev.langchain4j.data.document.splitter.DocumentSplitters;
import dev.langchain4j.model.openai.OpenAiTokenizer;

public class DocumentProcessService {
    public List processWithOverlap(Document document) {
        // 1. 定义分词器 (这里以 OpenAI 为例，私有化部署可以用 HuggingFace 的分词器)
        Tokenizer tokenizer = new OpenAiTokenizer("gpt-4");
        // 2. 创建带有重叠的递归切分器
        int maxTokens = 500;    // 每个 Chunk 最大 500 Token
        int overlapTokens = 50; // 相邻 Chunk 之间重叠 50 Token (约 10%)
        DocumentSplitter splitter = DocumentSplitters.recursive(
                maxTokens,
                overlapTokens,
                tokenizer
        );
        // 3. 执行切分，框架会自动处理递归降级和重叠部分的计算逻辑
        return splitter.split(document);
    }
}

方案三：父子文档策略实现精准召回与丰富上下文

在检索环节我们常面临权衡：切片过长，向量表征容易模糊，导致检索精度下降；切片过短，虽能精准匹配，但提供给大模型的上下文不足，可能引发模型幻觉（Hallucination）。

父子文档（Parent-Child Chunking）策略能有效解决此矛盾：让细粒度的子文档负责高精度向量检索，让粗粒度的父文档负责提供生成答案所需的完整背景信息。

数据写入阶段（Ingestion）：将完整的父文档（如整个段落）存入Redis等键值数据库。同时，将其进一步细分为子文档（如单个句子）进行向量化，并存入Qdrant等向量数据库。关键步骤是在向量库中存储子文档时，在其元数据（Payload）中记录对应父文档在Redis中的唯一标识（parent_id）。

数据检索阶段（Retrieval）：先查询向量库，找到与问题最相关的子文档，提取其关联的parent_id，然后根据这些ID从Redis中取出完整的父文档，组装后送入大模型生成答案。

1. 数据入库阶段的核心代码：

public void ingestParentChild(String largeText) {
    // 1. 先切出大段落 (父文档) - 比如按双换行符切分段落
    List parentChunks = splitIntoParagraphs(largeText);

    for (String parentText : parentChunks) {
        // 生成该大段落唯一的 parent_id
        String parentId = UUID.randomUUID().toString();

        // 2. 将完整的父文档存入 KV 存储 (Redis)
        redisTemplate.opsForValue().set("doc:parent:" + parentId, parentText);

        // 3. 将父文档进一步切成极短的小句子 (子文档)
        List childChunks = splitIntoSentences(parentText);

        List childSegments = new ArrayList<>();
        for (String childText : childChunks) {
            // 4. 【灵魂操作】将 parent_id 塞入子文档的 Metadata (元数据)
            Metadata metadata = new Metadata();
            metadata.put("parent_id", parentId);
            childSegments.add(TextSegment.from(childText, metadata));
        }

        // 5. 对子文档进行 Embedding 并存入 Qdrant 向量库
        embeddingStore.addAll(embeddingModel.embedAll(childSegments).content(), childSegments);
    }
}

2. 自定义检索阶段的核心代码：

要将此策略集成到业务主流程，需要自定义实现LangChain4j的ContentRetriever接口。

@Component
@RequiredArgsConstructor
public class ParentChildRetriever implements ContentRetriever {
    private final EmbeddingStore qdrantStore;
    private final EmbeddingModel embeddingModel;
    private final StringRedisTemplate redisTemplate;

    @Override
    public List retrieve(Query query) {
        // 1. 将用户问题转为向量
        Embedding queryEmbedding = embeddingModel.embed(query.text()).content();
        // 2. 去 Qdrant 中精准检索最相似的“小句子 (Child Chunks)” (比如取 Top 5)
        List> matches = qdrantStore.findRelevant(queryEmbedding, 5);
        // 3. 提取命中句子的 parent_id，并进行【去重】 (因为有可能命中同一个父段落里的两句话)
        Set parentIds = matches.stream()
                .map(match -> match.embedded().metadata().getString("parent_id"))
                .collect(Collectors.toSet());
        // 4. 拿着 ID 去 Redis 中批量捞出完整的大段落 (Parent Chunks)
        List finalContents = new ArrayList<>();
        for (String parentId : parentIds) {
            String parentText = redisTemplate.opsForValue().get("doc:parent:" + parentId);
            if (parentText != null) {
                // 组装成最终的 Content 返回
                finalContents.add(Content.from(parentText));
            }
        }
        // 5. 此时大模型拿到的是极其精准且拥有完整上下文的大段落！
        return finalContents;
    }
}

实施这套方案后，RAG系统的检索准确率和答案生成质量均可获得显著提升。