游乐游手机版
首页/AI热点日报/热点详情

构建企业级RAG文档问答系统:Jina API语义切分

类型:热点整理2026-06-28
概述 文本切分是构建RAG系统(检索增强生成)时不可回避的关键步骤。好消息是,Jina AI 提供了一项免费的语义切分工具,开发者可以直接通过API调用,免去自行实现的麻烦。这家公司成立于2020年,专注于搜索与智能分析的开源解决方案,产品线相当完善——Jina Reader可将网页解析为Markd

概述

文本切分是构建RAG系统(检索增强生成)时不可回避的关键步骤。好消息是,Jina AI 提供了一项免费的语义切分工具,开发者可以直接通过API调用,免去自行实现的麻烦。这家公司成立于2020年,专注于搜索与智能分析的开源解决方案,产品线相当完善——Jina Reader可将网页解析为Markdown格式,Reranker能对向量检索结果进行重排序,HuggingFace上也开源了多款模型。不过,今天我们聚焦的是它的文本切分API。

使用RAG技术构建企业级文档问答系统:切分(3)使用Jina API进行语义切分

具体来说,该API名为Jina Segment,以REST接口形式提供服务,官方主页位于 https://jina.ai/segmenter/。其核心特点是语义切分——并非简单地按字符数切割,而是理解文档内容的结构化逻辑进行拆分。最吸引人的一点:完全免费。不过,国内用户需注意自身网络环境能否正常访问。

官方曾展示过对《汉书》的切分效果,连文言文也能处理得较为理想。你可以前往官网交互式调整参数,找到最适合自身应用场景的配置,然后固化到工作流程中。

效果

从下述实验结果来看,使用Jina Segment API后,问答效果相比Baseline仍有一定差距。原因其实不难推测——参考《汉书》的切分样例即可发现,Jina倾向于将标题与正文分开。但在RAG场景中,标题往往包含关键的语义信息,这一点在之前使用Markdown文档做切分的实验中已经得到验证:当标题与正文分离时,检索效果会出现下降。

代码

本文对应的完整代码已开源,地址见 https://github.com/Steven-Luo/MasteringRAG/blob/main/split/03_jina_segment_api.ipynb。核心逻辑非常简洁:发送一个POST请求,将全文置于content字段中,其余参数直接从官网拷贝即可。以下为核心代码段:

Document (text, max_len=):
    url = 
    headers = {: ,:     }
    data = {: text,: ,: ,: max_len    }
    response = requests.post(url, headers=headers, json=data)
    resp_json = response.json()
    chunks = resp_json [] [Document(page_content=chunk.strip())  chunk  chunks  chunk.strip() != ]
来源:https://www.53ai.com/news/RAG/2025011346325.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。