游乐游手机版
首页/AI教程/文章详情

突破大模型幻觉:澜舟可信智能体工程化实践

时间:2026-06-03 18:21
澜舟可信智能体通过拒识机制、上下文工程、表格推理和工具调用等工程化手段,构建证据驱动的回答链路。在复杂业务场景中实现有依据回答、无依据拒答,并将推理过程可验证,有效减少大模型幻觉,提升企业级应用的可靠性。

当大模型从“能回答”进化到“可托付”,真正的挑战在于如何在复杂的业务材料中精准定位依据、识别边界、拒绝无据臆测,并将推理过程嵌入可验证的工程链路。

01 背景:企业级智能体,为何必须解决可信问题

过去一年,大模型智能体在企业场景中的落地步伐显著加快。从知识问答、合同审阅,到财报分析、政策解读、投研辅助,越来越多的业务团队开始将AI接入真实工作流。然而,越贴近核心业务,大家就越容易遇到同一个痛点:模型虽然聪明,却未必可靠。

在开放问答或创意写作中,模型的“合理发挥”或许可以被容忍;但在金融分析、合同审计、招投标审查、企业知识库问答等场景里,一个数字看错、一条条款编造,都可能造成复核成本飙升,甚至直接干扰业务决策。举个简单的例子:处理财报PDF时,通用大模型可能把原文中的“-2.3%”错误解读为“23.4%”;合同审查中,文档明明没有某项违约责任,模型却依据内部知识凭空补出一段看似合理的条款;制度问答时,员工问“这个费用能不能报销”,若模型未检索到明确依据便强行作答,就把“知识助手”变成了新的风险源。

这类问题的核心矛盾在于:企业需要的是基于证据的可靠回答,而通用大模型天然更擅长基于语言模式的生成。正因如此,澜舟在可信智能体的建设上,注重的不仅是模型参数规模,而是围绕三个问题做工程化增强:

  • 不知道时能否拒答——文档中缺乏答案时,模型是否能明确回答“没有相关信息”。
  • 复杂材料能否读准——面对长文档、扫描件、表格、图表、跨页信息时,模型是否保持结构理解能力。
  • 推理结果能否验证——涉及计算、比较、筛选、引用时,模型能否合理调用工具并留下可复核的依据。

这也正是本文要探讨的重点:澜舟可信智能体如何通过拒识机制、上下文工程、表格推理、工具调用和评测闭环,将“减少幻觉”从一个模型能力问题,转化为一套可落地、可评估、可持续迭代的工程体系。

\

02 设计思路:让系统会查、会算、会拒绝

在许多企业应用中,幻觉其实是系统链路共同造成的结果。文档解析不准,检索召回就会偏离;上下文过长过乱,模型难以抓住关键证据;问题本身超出资料范围,系统却未能拒绝回答;表格计算直接交给大模型,结果自然不稳定。因此,澜舟可信智能体的设计思路可以概括为一句话:将大模型置于一个有边界、有证据、有工具的系统之中。

从“直接问模型”转向“证据驱动回答”

传统问答链路通常是:用户提问 → 检索若干片段 → 大模型生成答案。这个流程简单,但在复杂业务场景中很容易出问题。比如检索片段里只有相似表述却没有真正答案,模型仍可能根据上下文“脑补”;再比如表格被切片后丢失了行列关系,模型看到了数字却不清楚数字属于哪一列。我们的思路是在生成之前增加多层判断:先判断问题能否在文档中找到足够证据;再判断证据是否完整、是否存在冲突;对需要计算的问题,交给Python等工具执行;最后再由模型组织自然语言答案,并返回依据。

系统需要先把材料处理成模型能读懂、能引用、能计算的上下文,使模型成为可信链路中的“推理与表达节点”。

可信智能体的四层能力框架

澜舟可信智能体可以抽象为四层能力:

\

这个框架的优势在于,它把“可信”拆解成了多个可优化的环节。每一层都有明确的输入、输出和评测指标,整个智能体也因此能够持续迭代。

\

03 能力建设一:拒识机制,让模型学会说“不知道”

大模型幻觉最典型的表现,就是在资料中缺乏答案时,仍然给出一个自信的回答。对企业知识库来说,这一点尤为危险——用户往往会默认“系统回答了,就说明有依据”。

澜舟可信智能体首先强化的就是拒识能力。所谓拒识,是让系统能够区分三类情况:

  • 有明确答案:文档中存在直接依据,可以回答并引用来源。
  • 有相关信息但不足以回答:文档提到了相近概念,但缺少关键条件,需要提示用户信息不足。
  • 没有相关依据:文档中没有答案,应明确拒答,避免编造。

陷阱题测试:专门考察“相似但无答案”

在自建的100条陷阱题测试集中,问题与文档内容高度相似,但文档中实际没有对应答案。这类问题比普通的无关问题更难,因为它会诱导模型根据相似语义进行补全。

在该测试集中,澜舟智能体的拒识准确率达到90%,能够较稳定地返回“文档中没有相关信息”的提示。这说明系统不仅能检索到相似内容,还能进一步判断“相似内容是否足以支撑回答”。以下案例能直观体现可信智能体的价值:

\

幻觉检测:从结果层面做一致性校验

除了前置拒识,澜舟还在幻觉检测上进行了专项评测。在11个公开幻觉检测数据集中,澜舟问答智能体整体达到或超过现有SOTA水平。其中:

\

更值得关注的是自建的高难度拒识集。该数据集包含76条极易混淆的上下文样本,问题与上下文边界非常接近,考察的是模型在模糊场景下的判别能力。

\

尽管绝对准确率仍有提升空间,但在极端混淆场景中,澜舟智能体相对通用模型已实现倍数级领先。这也说明,可信智能体的背后,需要专门的数据、评测和链路支持。

04 能力建设二:表格推理与工具调用,让复杂计算可验证

在企业知识中,最难处理的莫过于表格。财报里有合并报表、同比环比、分业务收入;合同里有付款节点、违约金比例、服务期限;库存系统里有SKU、区域、批次、周转率。用户的提问也往往是这样的:

  • 哪个区域的同比增速最高?
  • 剔除异常项后,平均毛利率是多少?
  • 这份合同的付款比例是否超过制度上限?
  • A类商品中库存周转天数超过30天的有多少?

这类问题涉及多步计算、跨单元格比对、条件筛选和聚合统计。让LLM直接“心算”,结果很难稳定。因此,澜舟采用了“基础TableQA + Python工具增强”的策略。

基础TableQA:让模型读懂二维结构

在233条自建表格推理数据集中,澜舟问答智能体取得了76.82%的准确率。相比同等参数量通用大模型通常65%—72%的表现,说明模型已经具备了较强的表格理解能力。

这一步解决的是“读懂表格”的问题,包括:识别表头、行名、合并单元格;理解跨页表格的连续关系;保留数值、单位、百分号、负号等关键信息;将自然语言问题映射到对应行列。

Python工具增强:把计算交给确定性工具

当问题进入复杂计算阶段,可信智能体会自动生成并执行Python代码,将计算过程交给解释器完成。工具增强后,表格推理准确率提升至90.13%。系统把任务拆成了更可靠的流程:

  1. 模型定位相关表格和字段;
  2. 将表格转成结构化数据;
  3. 生成计算逻辑;
  4. Python执行并返回结果;
  5. 模型基于执行结果组织答案,并保留关键依据。

\

对于财报分析、经营看板、库存盘点等场景,模型负责理解意图和组织表达,工具负责确定性计算,二者协同,大幅降低了幻觉和算错的概率。

05 能力建设三:上下文工程,把复杂文档变成模型可理解的证据

“幻觉”出现的原因中,输入给模型的上下文质量太差往往是主因。一份PDF在解析后可能丢失标题层级;一个跨页表格被拆成多个无上下文片段;图表下方的注释与图表本体分离;脚注、单位、统计口径被遗漏。这些问题都会导致模型拿到“看似相关但不完整”的材料,最终输出不可靠的答案。

我们在Context Engineering(上下文工程)中,重点优化了三类信息。

结构增强:保留文档的层级与边界

对企业文档来说,标题、章节、列表、表格边界是语义的一部分。澜舟在PDF等非结构化文档解析中,会强化:标题与正文的从属关系;列表项之间的并列关系;表格行列边界和单位;图表说明、脚注、来源注释;跨页内容的连续关系。让模型看到的是一组带结构的证据,而不只是简单的文本切片。

推理增强:把复杂问题拆成可验证步骤

对于需要多步推理的问题,系统会引导模型采用“数据定位 → 逻辑计算 → 结果比对 → 答案生成”的链路。比如用户问:“2023年华东区收入增长是否主要来自新客户?”系统需要先定位华东区收入,再查找新老客户拆分,再计算贡献占比,最后判断“主要来自”是否成立。这个过程如果直接生成,风险很高;如果拆成步骤,就能逐步校验。

工具协议:让智能体稳定调度外部能力

澜舟还通过标准化插件协议,让智能体能够稳定调用Python沙箱、外部检索、数据库查询等工具。对企业智能体来说,工具调用是可信输出的必要组成部分。

\

06 真实业务场景:澜舟智库与行业解决方案中的应用

可信智能体的价值,最终要回到业务场景中验证。结合澜舟智库及企业知识服务场景,可以从三个方向理解其应用价值。

澜舟智库:从“搜资料”到“带依据的知识问答”

澜舟智库面向企业内部知识管理场景,典型数据包括制度文件、行业报告、产品手册、会议纪要、项目文档、客户材料等。过去,用户需要自己搜索、打开文件、定位段落、人工总结。可信智能体接入后,用户可以直接提出业务问题,系统返回带依据的答案。

例如:

  • 销售问:“某行业客户最关心的合规能力有哪些?”
  • 解决方案顾问问:“这个项目是否有可复用的历史标书模板?”
  • 管理者问:“过去几个季度客户反馈中,高频问题集中在哪些模块?”
  • 新员工问:“差旅报销中住宿标准是多少?”

在这些场景中,系统不仅要答得出来,还要回答依据在哪里。拒识机制能避免资料不足时强行回答;上下文工程能提升长文档检索质量;工具调用能支持统计类问题。

合同与标书审查:让风险识别更可控

合同、标书和制度审查是可信智能体非常适合落地的场景。这类任务具备三个特点:文本长、规则多、风险高。澜舟可信智能体可以帮助业务人员完成:非标条款识别;付款、违约、交付、验收等关键条款抽取;与公司制度或历史模板进行比对;找出潜在冲突、缺失条款或异常承诺;生成审查摘要并引用原文位置。

尤其需要强调拒识能力。比如合同没有约定自动续约,系统就不能根据常见合同模板补出自动续约条款;标书没有明确评分细则,系统也不能凭经验猜测权重。

金融与经营分析:让报表问答从“能看”走向“能算”

在财报、经营报表、库存报表等场景中,可信智能体的核心价值在于“读表 + 计算 + 解释”。它可以辅助完成:财务指标提取与同比环比计算;多业务线收入、成本、毛利率对比;异常波动定位;库存周转、区域销量、产品结构分析;生成带计算依据的分析结论。

与普通文本问答不同,这类场景必须引入工具执行。澜舟将Python沙箱纳入推理链路后,显著提升了复杂表格推理的准确率,也让计算过程更容易复核。

\

07 总结和展望:可信智能体的下一步,是从“回答正确”到“过程可信”

从评测结果来看,澜舟可信智能体在多个关键指标上取得了明显提升:

这些结果说明,企业级可信智能体的提升来自于系统化的组合:用拒识机制控制回答边界;用幻觉检测评估事实一致性;用上下文工程提升证据质量;用混合SFT强化垂直能力;用Python工具补齐复杂计算短板;用自建高难度评测集持续暴露问题。

大模型应用进入企业之后,竞争焦点正在从“模型能不能回答”转向“回答能不能被信任”。这背后,更多是工程问题、数据问题、评测问题和产品问题。澜舟可信智能体的实践表明,在金融、合同、标书、知识库等垂直场景中,更可行的路径是:围绕业务风险点建设专项数据,围绕证据链优化上下文工程,围绕复杂计算接入确定性工具,围绕真实场景建立持续评测闭环。

未来,可信智能体还可以继续向三个方向演进:

  1. 更强的多模态理解:不仅能读文本和表格,还能理解图表、扫描件、流程图、票据、页面截图等复杂材料。
  2. 更细的证据追溯:答案能定位到页码、段落、表格单元格和计算过程。
  3. 更深的业务闭环:把用户反馈、人工复核结果、线上错误案例反向沉淀为训练和评测数据,让系统越用越可靠。

当智能体能够做到“有依据才回答、无依据会拒绝、复杂问题会调用工具、关键结论可追溯”,它才真正具备了进入企业核心流程的条件。

来源:https://cloud.tencent.com.cn/developer/article/2681715
上一篇澜舟智能体问数技术:一键直达高效数据交互新范式 下一篇CloudQ自定义任务自动守护灰度观察48小时
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
手把手教你免费获取小米MiMo百万亿Token及Claude Code配置全流程
AI教程 · 2026-06-04

手把手教你免费获取小米MiMo百万亿Token及Claude Code配置全流程

前言:百万亿Token免费额度领取指南 近期,小米MiMo大模型推出了重磅福利——百万亿Token的免费额度,申请流程极为简便,额度也十分充足,并且支持直接接入Claude Code等主流工具。本文将完整演示从注册申请、获取API密钥,到最终在Claude Code中完成配置的全流程,跟着操作即可轻

Sentinel-3B OLCI L3全球降分辨率叶绿素数据2022.0版
AI教程 · 2026-06-04

Sentinel-3B OLCI L3全球降分辨率叶绿素数据2022.0版

Sentinel-3B OLCI Level-3 Global Mapped Earth-observation Reduced Resolution (ERR) Chlorophyll (CHL) Data, version 2022 0 叶绿素a浓度全球网格化数据集简介 叶绿素a浓度是衡量海洋浮

我每月省千元组建一支全天候云端AI团队
AI教程 · 2026-06-04

我每月省千元组建一支全天候云端AI团队

先说个有意思的现象。 前两天,我的视频生成团队“入职腾讯”了。在WorkBuddy专家团里,不少伙伴已经开始用这个工具做短视频。本来以为这事儿就这么定了,结果这两天,反而开始疯狂返工——我发现它只能生成文字驱动的视频,还不能像真正的视频团队那样,把配图的活儿也给干了。 于是,继续优化。 先给你看个好

如何编写合格的AI工作流指令:提升编辑技能
AI教程 · 2026-06-04

如何编写合格的AI工作流指令:提升编辑技能

如何编写一个合格的 Skill:AI 工作流核心指令集指南 在 AI 工作流的实际应用中,Skill(技能指令)常常被误解。许多人将其与普通提示词(Prompt)混淆,导致写出的指令过于宽泛或模糊,AI 难以精准执行。实际上,Skill 的本质是一套结构化的行为指令集,它引导 AI 助手在特定场景下

TRAE AI编程入门第三讲:Rules、Memory、MCP与Skills突破边界
AI教程 · 2026-06-04

TRAE AI编程入门第三讲:Rules、Memory、MCP与Skills突破边界

最近几天我会逐步公开自己策划的系统化 AI 编程入门课程大纲,欢迎各位提出宝贵建议。 这套课程暂定 4+1 节:4 节主课以 TRAE 为载体,带领大家零基础入门 AI 编程;外加 1 节扩展课,专门为非技术背景的学员补充软件工程基础知识。具体安排如下: 第一节:TRAE AI 编程入门——Vibe