通信领域的技术知识问答,一直是行业落地过程中的核心痛点。通用大语言模型(LLM)虽然能力突出,但在应对3GPP协议中那些海量的专业术语与复杂规范时,往往显得“力不从心”。传统的检索增强生成(RAG)技术,通常采用固定字数简单粗暴地切分文档,导致表格结构散乱、图表语义丢失,严重影响了信息召回的质量。
那么,SC-Telco RAG究竟是如何破解这一难题的呢?它的核心思路非常巧妙——将文档自身的结构作为检索的依据。
首先来看第一个关键模块:结构化知识库构建。传统RAG在切分文档时,犹如用剪刀盲目裁剪报纸,剪下的碎片虽仍是纸张,但句子与段落间的内在逻辑已荡然无存。SC-Telco RAG则像一位经验丰富的图书管理员,将3GPP协议按照自然段落和标题层级,重新组织成一棵层次分明的“文档树”。每个叶子节点(比如一个自然段或表格)都带有完整的归属路径,能明确追溯其在文档中位于哪个章节、哪个子节。对于令人困扰的表格数据,系统会先将其转换为LaTeX格式,再由LLM进行摘要总结,最终统一纳入知识库。这样一来,知识的“原始代码”本身就具备了结构化和可追溯的特性。
接下来是知识库检索与重构。即便拥有了良好的结构,如何从海量信息中精准捞出与问题最匹配的段落,依然是挑战。SC-Telco RAG的特别之处在于,检索完成后并非就此结束,而是会执行一轮“精细化处理”。系统首先对检索到的多个文本片段进行重复去除和节点合并:如果两个片段在“文档树”中属于同一个子节点且原本是连续的文本,就去掉重叠部分,按照原文顺序拼接。更重要的是,它还引入了文本扩充与筛选逻辑——如果与某个问题相关的多个文本共享同一个父节点,且该节点下超过80%的内容都被召回,系统会大胆地将整个节点下的全部文本都纳入;而对于那20%属于其他父节点的“散兵游勇”,则根据相关程度阈值决定是否保留。这就像查询某个条款时,发现相关论据分散在几个小节中,系统会判断它们是否来自同一章节,若是,则将整章内容都调出供模型参考,既保证了信息密度,又清除了冗余。
真正让这项技术脱颖而出的,是它的两阶段微调策略。许多团队在做RAG时,要么只微调模型,要么只优化检索,很少将两者深度绑定。SC-Telco RAG走了一条更为扎实的路径:
- 第一阶段微调,专注于让大模型“学会听话”。该阶段的训练语料很简单——输入为用户问题,输出为正确答案。目标是让模型具备强大的指令遵从能力,即使没有上下文,也能给出高质量的解答。
- 第二阶段微调,则是在第一阶段的基础上,将RAG检索到的上下文信息加入到提示(Prompt)中。让模型在拥有“指令遵从能力”的同时,再学会如何“有选择地利用外部知识”。
为什么要绕这么大一个弯子?实验数据给出了答案。如果跳过第一阶段,直接用带上下文的语料去微调,模型会过度依赖上下文,反而导致面对新问题或上下文信息不准确时表现下降。两阶段微调正是为了给模型装上“理解上下文”的开关,而不是让它变成只能依靠“小抄”答题的学生。
实际效果如何?在ITU AI/ML in 5G Challenge的专项赛题中,应用SC-Telco RAG的方案在1000道通信标准知识问答题上,准确率达到了80.75%,相比基线模型提升了整整35.75%。实验分析表明:结构化文档提取保障了检索质量,两阶段微调解决了模型对上下文的“识别与利用”能力,两者缺一不可。
当然,任何技术都有其局限性。当前方案在文档处理上主要聚焦于3GPP协议文本,对于多模态数据(如网络拓扑图、信令流图等)、多语言支持以及实时数据集成,仍有优化空间。但不可否认的是,SC-Telco RAG给出了一条非常清晰的路径:与其让AI去适应混乱的数据,不如先把数据本身变得有序。 这对于通信知识稽核、智能客服、网络故障诊断等场景,无疑具有极强的启发意义。

图1:SC-Telco RAG技术流程
图2:结构化文档树逻辑图
图3:知识召回阶段文档处理
图4:结构化文档知识提取技术效果测评
图5:大模型两阶段微调技术效果测评
图6:SC-Telco RAG技术效果测评
```