一、实现背景
在日常航道调度和现场巡检工作中,运维与调度人员常常会遇到各种法规和标准问题——汛期不同吨位船舶的最大吃水深度是多少?桥区的限速规定是什么?超限船舶如何申报?航标布设又有哪些规范?这些问题看似基础,但要准确回答,往往得翻半天资料。
从行业实践来看,以前的解决办法无非是这三种:翻厚厚的纸质规范手册、在海量PDF里做关键词检索、或者打电话给上级部门咨询。单次查询耗时少说十几分钟,要是赶上夜间应急场景,这种信息滞后很容易耽误通航调度决策。
目前网上主流的QClaw玩法,大多集中在文档总结、表格处理、周报自动化这些通用办公场景,很少有人基于本地私有化RAG做垂直行业知识库落地。而多数通用知识库方案又依赖云端文件上传——像航道通航规范、内河管理细则这些内部资料,哪能随便往公有云上存?
基于这个需求,依托QClaw的本地文件解析、自定义技能绑定和私有知识库挂载能力,可以搭建一套内网离线可用、多格式文档批量入库、微信远程问答的航道专属RAG智能问答工作流。不需要部署向量数据库,也不用额外开发服务,普通运维人员就能一键复刻落地。
二、详细复现步骤
步骤 1:前期资料规整与环境配置
首先,新建一个独立的本地文件夹,统一存放航道相关资料——通航管理条例、汛期水平管控文件、船舶过闸申报规范、航标养护技术标准、事故处置预案等,支持PDF、Word、Excel、TXT四种格式。注意,加密和扫描件类型的文档需要提前处理,否则无法解析。打开QClaw客户端,关闭云端文件自动同步和第三方数据上报功能,开启本地文件权限白名单,只允许读取预先建好的知识库文件夹,确保行业资料不外泄。同时绑定微信,开启文件远程调用和指令问答权限,这样手机端也能直接发起提问。
步骤 2:搭建文档批量向量化入库工作流
触发方式可以手动触发,也可以设置定时增量——比如每天凌晨2点自动扫描文件夹中的新增文档。工作流由四个节点构成:
节点1:本地批量文件读取,遍历指定知识库目录,过滤重复文件和空文件;
节点2:文档预处理技能,自动拆分长文档、清洗冗余页眉页脚、去除表格中无效的换行内容;
节点3:本地轻量向量分片存储,所有分片数据保存在工控机的本地向量缓存文件夹中,不上传云端;
节点4:入库结果日志本地留存,记录新增文档名称、分片数量和入库时间,生成入库统计表供日后查阅。
业务执行流程图:

步骤 3:搭建运维智能问答工作流
触发方式有两种:微信文字指令触发,或者客户端对话框直接提问。工作流包括以下节点:
节点1:用户问题意图识别,区分法规查询、数值标准查询和流程咨询三类问题;
节点2:本地向量相似度检索,从私有知识库匹配相似度最高的Top5文档片段;
节点3:行业专属Prompt约束,限定回答只能依托检索到的航道资料,禁止模型编造规则,无法确定的内容直接反馈“无相关条款”;
节点4:问答结果格式化输出,附带资料来源文件名和对应页码,微信端推送完整答案及参考出处;
节点5:问答记录本地归档,自动保存历史提问和回答内容,用于后续知识库的迭代优化。
步骤 4:配置专属行业问答提示词
提示词可以这样设置:
你是内河智慧航道专业运维顾问,所有回答必须严格基于本地检索到的航道法规、通航标准、处置预案文档内容,禁止主观编造规则、标准数值。回答结构分为两部分:第一部分给出简洁清晰的官方结论;第二部分标注参考文档名称与片段位置。如果检索内容无法支撑用户问题,直接回复:当前知识库未收录相关管理条款,请核对问题或补充对应规范文档,不要随意推测作答。当然,这只是一个参考模板,大家可以根据实际业务需求,自行调整其中部分话术。
三、核心创新点
部署模式创新:摒弃传统RAG需要部署向量数据库和后端服务的复杂架构,依托QClaw原生本地缓存能力实现文档向量化存储,全程数据不离开航道工控内网,完美满足交通行业数据安全合规要求,填补了传统基建内网场景下轻量化知识库的玩法空白。
交互方式创新:支持PC端和微信端双渠道问答,突破只能在本机客户端操作的限制。运维人员外出巡检或夜间居家值守时,通过绑定的微信就能随时查询通航法规和处置流程,应急场景下的信息获取效率大幅提升,这是通用QClaw玩法中很少覆盖的远程业务交互方案。
迭代机制创新:设置定时增量入库节点后,后续新下发的管理文件或最新汛期管控通知,只需丢进指定文件夹,系统会自动完成分片和向量化入库,无需重复配置工作流。这大大降低了知识库的后续维护成本,尤其适合政策、规范频繁更新的政务类行业。
可信度优化创新:常规文档问答只输出结论,容易出现模型幻觉编造行业规则。本工作流强制附带文档来源,调度人员可以快速溯源核对官方原文,有效避免因AI错误回答引发通航安全和合规风险。
四、适用人群
这套方案主要面向以下几类人群:智慧航道、海事、水利、港口行业的研发、运维和调度人员,需要高频查阅行业规范和处置预案的从业者;传统内网政企单位的行政和技术人员,希望低成本搭建部门内部知识库且禁止业务资料上云的用户;AI Agent技术爱好者,想跳出通用办公场景,尝试垂直行业私有化RAG轻量化落地的开发者;以及项目管理人员,需要沉淀内部业务经验、规范流程、降低新人上手培训成本的团队负责人。
五、落地踩坑点及解决方案
踩坑 1:加密PDF、扫描版文件无法解析,导致文档入库失败
解决方案:提前统一将扫描件通过OCR工具转成可编辑PDF,加密文档解密后再放入知识库目录。在工作流前置节点增加文件格式校验,异常文件自动汇总生成错误清单,提醒用户处理。
踩坑 2:单份超大规范文档拆分不合理,出现上下文断裂,问答答案不完整
解决方案:在文档预处理节点设置固定分片长度,同时开启分片重叠参数,相邻文档片段保留15%的内容重叠,避免规则条款被拆分到不同片段导致检索缺失。
踩坑 3:知识库文档数量持续增加后,本地相似度检索速度变慢
解决方案:定期在空闲时段执行知识库冗余清理工作流,删除重复、过期作废的旧规范文件,对存量文档做索引压缩,同时限制单次检索返回的片段数量,避免大篇幅文本增加模型推理耗时。
踩坑 4:用户提问表述口语化,出现意图匹配偏差,检索不到对应法规
解决方案:在意图识别节点增加航道行业同义词映射配置,比如“限载”“吃水限制”“最大通航吨位”做同义词绑定,同时在Prompt中引导模型对模糊问题先做关键词拆解再检索。
六、效果总结
这套QClaw私有化航道知识库工作流落地后,单条法规类问题的查询耗时从平均12分钟压缩到10秒以内。新人运维人员能快速查阅行业规范,大幅降低岗前培训成本。依托内网离线运行能力,既守住了行业数据安全底线,又发挥了AI Agent在信息检索和智能问答方面的效率优势。
这个玩法不仅可以复用到水运基建行业,同样适配政务、电力、轨道交通等各类内网场景,具备很强的行业二次传播与复用价值,为传统行业知识库的数字化落地提供了一个低成本、可操作的新思路。
