去年为多家企业提供深度AI定制服务时,我遇到了一个棘手的核心问题:AI的应用往往停留在表面,无法触及业务深处。
对于那些数字化程度较低的企业,AI几乎没有用武之地;而数字化程度较高的公司,则面临截然不同的困境——技术团队基于AI提供的功能,往往能找到成熟的替代方案,并非非AI不可;与此同时,业务部门真正迫切需要的功能,AI却又无法交付。说白了,许多所谓的AI应用,不过是给已有成熟功能换了一个包装、改了个名称而已。
深入探究后会发现,对于业务方而言,判断标准其实非常直接:如果AI应用不能完全接管业务,那它就是玩具;说得更直白些,对业务方来说,它就是垃圾。
此前基于GPT-4o开发的应用尚且如此,如今基于DeepSeek构建的应用更是雪上加霜,问题可能更加严峻。
模型幻觉
模型幻觉堪称AI应用的头号杀手。同一个问题却收到截然不同的回答,这本身就足以令人绝望。试想一下:
- 你是一名患者,针对同一个问题,医生给出了两种截然不同的答案,你会不会感到恐慌?
- 你是一位律师,针对同一个法律问题,律师给出了完全相反的结论,你会不会感到害怕?
根据Vectara HHEM人工智能幻觉测试的数据显示,DeepSeek-R1的幻觉率高达14.3%。
其他模型的数据虽然相对较好,但终究绕不开那个核心问题:在存在幻觉的前提下,你敢不敢让它完全接管业务?如果答案是否定的,那么AI应用必然会遭受挫折——人们对AI只会变得越来越苛刻。
幻觉原因
大模型的工作原理,其实有点像成语接龙游戏。每个成语都可以理解为一个“高维向量”,其意义如同词的向量表达,而成语之间的衔接则类似于模型的推理过程。
训练过程主要分为两个阶段:首先通过非标记数据进行预训练,让模型学会“说话”——此时模型依赖直觉预测下一个字,比如“五光十色”可能会接上“色狼”;随后通过标记数据进行微调,让模型学会正确的搭配方式,比如“五光十色”后面合理的接法是“色彩斑斓”。
但以下两种情况会引发幻觉:
- 微调数据中从未出现过“五光十色”这个成语,模型就会胡乱接续,最终结果完全不可预测;
- 系统混入了错误数据,比如真有微调数据将“五光十色”错误地接成了“色狼”,模型就会被带偏。
当然,这只是对幻觉最浅层的解释。真实场景中的问题远比这复杂,比如一段数据管理中究竟是“管人”重要还是“管事”重要——这个问题本身就众说纷纭,模型自然也会受到影响、被带偏。所有这些问题,最终都会指向幻觉。
为什么R1的幻觉如此严重?
数据显示,R1的幻觉率大约是V3的4倍,这可能与推理型模型的内在特征有关。
前面提到过,GPT时代的提示词写法对DeepSeek可能并不适用,其根源就在于指令型模型与推理型模型的本质差异:
- 推理型模型更注重理解和推理,你只需提供目标或问题,它便能自行分析并寻找解决方案。
- 指令型模型则依赖于明确的指令和步骤,你需要给出详细指导,它会严格照做。
正因如此,DeepSeek提示词的技巧变成了一个公式:我要 [目标],给 [受众] 用,希望 [核心诉求],但担心 [潜在挑战]。
但话说回来,从工程控制的角度看,大多数时候我们其实并不希望模型自由发挥。例如,工程上更期待一种关键词识别匹配的方式:
| 学生表达 | 焦虑类型 | 具体分类 |
|---|---|---|
| 我快气炸了 | 学习压力过大 | 考试焦虑 |
| 我心态崩了 | 学习压力过大 | 高认知负荷 |
| 我复习了半天,但还是不会 | 学习压力过大 | 完美主义焦虑 |
在这种场景下,推理型模型的表现可能反而不如指令型模型——当然,具体情况还需通过测试来验证。
简单来说,模型越自由,幻觉的风险就越高。当模型通过长思维链进行推理时,会从不同角度思考问题,而这些角度未必与现实相符,幻觉由此产生。
从V3到R1发生了什么变化?
R1模型主要通过将V3进行强化学习来实现效果提升,尤其是采用了GRPO算法。
但这种机制也存在隐患:如果奖励函数过度强调创造性或流畅性,而忽略了事实准确性,模型就会倾向于生成看似合理但实际并不符合事实的内容。
GRPO算法在处理复杂任务时,往往依赖长思维链推理,但在此过程中容易引入不切实际的假设或逻辑跳跃,进一步加剧幻觉。
更麻烦的是,R1的自我纠错机制尚不够完善,难以有效识别和修正幻觉。有些幻觉内容表面看起来相当合理,模型自身根本无法发现,而修正这些错误又需要大量的交互和反馈,成本极高。
如何消除幻觉
尽管R1的幻觉问题比较突出,但DeepSeek依然是目前国内最优秀的基座模型选择之一。因此,如何在工程应用中消除模型幻觉,是必须优先考虑的问题。
其实GPT也存在幻觉,所以这个问题早有答案:知识图谱+工程控制,最常见的手段就是RAG——一种结合信息检索与语言生成的技术架构。模型先通过检索外部知识源(如文档库、数据库等)找到与用户查询相关的信息,再基于这些信息生成更准确的回答。
具体来说,RAG的工作原理分为三步:
- 查询处理与理解:将用户的输入查询转化为适合检索的形式(通常是向量表示)。
- 信息检索:利用这些向量表示在预先构建的知识库或索引中搜索,找到与查询最相关的信息片段(文本段落或数据记录)。
- 生成答案:将检索到的信息传递给语言生成模型,生成基于事实的更准确回答。
通过结合外部检索结果,RAG能有效提升生成内容的质量,避免生成无关或错误的信息。
光说理论不太好理解,我们来看一个具体例子。
AI律师的幻觉问题
假设用户的问题是:在美国,房东和租户之间的法律义务是什么?
模型直接生成的回答可能长这样:在美国,房东和租户之间的义务包括租金支付、物业维护、终止合同和保证房产安全。然而,具体的法律义务因州而异,租户和房东必须遵守当地的法规。
这个回答看起来挺合理,但模型并没有提供具体的法律依据或准确的引用,生成的内容很可能存在错误,或者只是基于通用常识而非具体的法律条文。这就是典型的幻觉:看似真实但缺乏证据支持,很可能误导用户。
现在,我们把RAG技术应用到这个场景。假设AI律师模型可以访问外部的法律数据库,从中检索与房东和租户义务相关的法律条文或案例:
RAG增强后的回答:
根据《美国统一住宅租赁法》第504条,房东有责任确保租赁物业保持适宜的居住条件,负责维修和保养房产,租户则有义务按时支付租金并保持租赁物业的整洁。此外,在加利福尼亚州,根据《加利福尼亚州民法典》第1941.1条,房东必须确保提供安全的居住环境,包括处理水电和供暖系统的问题。如果房东未履行这些义务,租户可以根据法律要求赔偿。
这样一来,差异就非常明显了。
RAG如何消除幻觉
回到用户的问题:“在美国,房东和租户之间的法律义务是什么?”
这里AI应用的工程控制就体现出来了:
一、输入处理
用户提出一个问题后,模型需要理解并转化为可检索的形式。通常,模型会使用预训练的自然语言处理模型将输入转化为高维向量,然后与数据库中的文档进行比对,找到最相关的内容。
当然,如果不想依赖向量库,直接用关键词筛选也完全可以,关键看工程实现如何设计。向量库本质上是一种小模型——小模型因为数据量小,虽然大概率不会出现模型幻觉,但准确匹配的能力往往比不上数据库关键词检索。这是向量库技术最核心的问题。
总的来说,工程能力越强就越倾向于依赖关键词查询,至于究竟用什么,得看具体的业务形态。
二、信息检索
信息检索的目标是从外部知识库中找到与用户查询相关的文本片段。现在有些公司依赖向量库,有些则依赖一套关键词泛化知识库系统,目的都差不多。
假设查询是:“在美国,房东和租户之间的法律义务是什么?”
检索结果可能包括:
- 美国统一住宅租赁法第504条:房东有责任确保物业保持适宜的居住条件。
- 加利福尼亚州民法典第1941.1条:房东必须提供安全的居住环境,处理供水、供暖等系统问题。
三、提示词处理
只要根据关键词查询出内容,后续就是传统的提示词处理,没什么难度了。
最终,整合后的内容作为生成模型的输入。例如,结合了多个法律条文和案例的回答会是:
根据《美国统一住宅租赁法》第504条,房东有责任确保租赁物业保持适宜的居住条件,并进行必要的维修和保养。此外,在加利福尼亚州,根据《加利福尼亚州民法典》第1941.1条,房东必须确保提供安全的居住环境,处理供水和供暖等系统问题。如果房东未履行这些义务,租户可以根据法律要求赔偿。
接下来的完整流程可供参考:
完整流程对比
传统流程:
- 问题:"在美国,房东和租户之间的法律义务是什么?"
- 提示词:你是一个资深律师,现在有用户问你法律问题,请你解答。当前用户的问题是:在美国,房东和租户之间的法律义务是什么?
- 结果:"在美国,房东和租户之间的法律义务包括租金支付、物业维护、终止合同和保证房产安全。然而,具体的法律义务因州而异,租户和房东必须遵守当地的法规。"
可能的问题:
- 缺乏具体的法律依据。
- 没有提到具体条文或特定州的法律规定,很可能误导用户。
RAG流程:
提示词的变化是关键:
你是一个资深律师,现在有用户问你法律问题,请你解答。当前用户的问题是:在美国,房东和租户之间的法律义务是什么?以下是检索到的相关法律条文和案例,帮助你回答用户问题:
- 根据《美国统一住宅租赁法》第504条,房东有责任确保租赁物业保持适宜的居住条件,并进行必要的维修和保养。
- 根据《加利福尼亚州民法典》第1941.1条,房东必须确保租赁物业提供安全的居住环境,包括处理供水、供暖等系统问题。
- 《纽约州租赁法》第227条规定,房东有义务确保物业符合当地建筑标准,并为租户提供安全的居住条件。
- 美国法院在多个案例中判定,房东未能履行上述义务时,租户有权要求赔偿,包括但不限于租金减免或搬迁费用。
请根据以上法律条文与案例回答用户的问题。
RAG生成的答案:
根据《美国统一住宅租赁法》第504条,房东有责任确保租赁物业保持适宜的居住条件,并负责进行维修和保养。此外,在加利福尼亚州,根据《加利福尼亚州民法典》第1941.1条,房东必须确保租赁物业提供安全的居住环境,包括处理供水和供暖等系统问题。如果房东未履行这些义务,租户可以根据法律要求赔偿。此外,依据《纽约州租赁法》第227条,房东还需确保物业符合当地建筑标准,并为租户提供安全的居住条件。在多个法院判例中,房东未能履行上述责任时,租户有权要求赔偿,包括租金减免或搬迁费用等。
到这一步,模型幻觉问题基本就解决了。
模型训练手法
RAG是初期成本比较低的方式。如果想通过模型训练本身来消除幻觉,那也不是不可以——
例如,在训练时为不同类型的任务设定不同的策略,让模型学会什么场景下提供创造性内容,什么场景下保持忠实与准确。比如处理摘要、翻译等任务时,模型必须更加注重忠实于原文,而不是自由发挥。
但这种任务的训练通常需要额外的监督数据和约束,以保证输出的准确性。
不过真的要这么做的话,可能会陷入一个困境:为了1%的效果提升,花费超过10%的资源,这显然不划算。因为这类方法需要额外的数据标注、长时间的微调和强化训练,往往还需要更多计算资源和人工干预。微调过程中对模型的细致调控,也会增加模型开发和训练的复杂度。特别是在任务多样性面前,如何找到让模型既能提供创造性答案、又能保持高忠实度和准确性的平衡点,是一项极其复杂且资源密集的工作。
总体而言,虽然精细化训练可以降低幻觉,但其成本不容忽视。尤其是在需要大规模数据和计算资源的场景中,如何在技术优化与成本效益之间找到平衡,依然是大模型发展面临的重要挑战。
结语
在AI工程应用的实践中,模型幻觉始终是一道难以绕开的坎。
从业务场景出发,我们看到了企业中的AI应用困境。尤其是当AI无法满足业务对高准确性和可靠性的需求时,幻觉的出现往往让AI应用被贴上“无效工具”的标签。
这揭示了一个关键问题:AI不一定需要完全接管所有业务,但在法律、医疗等高要求的领域,模型的准确性必须得到保证,否则幻觉会直接毁掉应用效果。
通过对模型幻觉成因的分析可以发现,大模型的工作原理、训练数据的质量以及推理过程中的自由度过高,都是导致幻觉的原因。
RAG技术通过结合外部知识库,能为生成答案提供更具事实依据的支持,从而有效减少幻觉的发生。
但RAG技术并非完美。它依赖于外部知识库的质量和覆盖范围,也可能引入额外的系统复杂性和响应时间。
最后,虽然精细化训练(如微调、强化学习等)可以进一步减少幻觉,但这些方法成本较高。尤其在大规模应用中,如何在技术优化与成本效益之间找到平衡,依然是工程实践中的重要课题。
