解决DeepSeek幻觉是AI应用的核心前提_AI热点日报

去年为多家企业提供深度AI定制服务时，我遇到了一个棘手的核心问题：AI的应用往往停留在表面，无法触及业务深处。对于那些数字化程度较低的企业，AI几乎没有用武之地；而数字化程度较高的公司，则面临截然不同的困境——技术团队基于AI提供的功能，往往能找到成熟的替代方案，并非非AI不可；与此同时，业务部门

去年为多家企业提供深度AI定制服务时，我遇到了一个棘手的核心问题：AI的应用往往停留在表面，无法触及业务深处。

对于那些数字化程度较低的企业，AI几乎没有用武之地；而数字化程度较高的公司，则面临截然不同的困境——技术团队基于AI提供的功能，往往能找到成熟的替代方案，并非非AI不可；与此同时，业务部门真正迫切需要的功能，AI却又无法交付。说白了，许多所谓的AI应用，不过是给已有成熟功能换了一个包装、改了个名称而已。

深入探究后会发现，对于业务方而言，判断标准其实非常直接：如果AI应用不能完全接管业务，那它就是玩具；说得更直白些，对业务方来说，它就是垃圾。

此前基于GPT-4o开发的应用尚且如此，如今基于DeepSeek构建的应用更是雪上加霜，问题可能更加严峻。

模型幻觉

模型幻觉堪称AI应用的头号杀手。同一个问题却收到截然不同的回答，这本身就足以令人绝望。试想一下：

你是一名患者，针对同一个问题，医生给出了两种截然不同的答案，你会不会感到恐慌？
你是一位律师，针对同一个法律问题，律师给出了完全相反的结论，你会不会感到害怕？

根据Vectara HHEM人工智能幻觉测试的数据显示，DeepSeek-R1的幻觉率高达14.3%。

其他模型的数据虽然相对较好，但终究绕不开那个核心问题：在存在幻觉的前提下，你敢不敢让它完全接管业务？如果答案是否定的，那么AI应用必然会遭受挫折——人们对AI只会变得越来越苛刻。

幻觉原因

大模型的工作原理，其实有点像成语接龙游戏。每个成语都可以理解为一个“高维向量”，其意义如同词的向量表达，而成语之间的衔接则类似于模型的推理过程。

训练过程主要分为两个阶段：首先通过非标记数据进行预训练，让模型学会“说话”——此时模型依赖直觉预测下一个字，比如“五光十色”可能会接上“色狼”；随后通过标记数据进行微调，让模型学会正确的搭配方式，比如“五光十色”后面合理的接法是“色彩斑斓”。

但以下两种情况会引发幻觉：

微调数据中从未出现过“五光十色”这个成语，模型就会胡乱接续，最终结果完全不可预测；
系统混入了错误数据，比如真有微调数据将“五光十色”错误地接成了“色狼”，模型就会被带偏。

当然，这只是对幻觉最浅层的解释。真实场景中的问题远比这复杂，比如一段数据管理中究竟是“管人”重要还是“管事”重要——这个问题本身就众说纷纭，模型自然也会受到影响、被带偏。所有这些问题，最终都会指向幻觉。

为什么R1的幻觉如此严重？

数据显示，R1的幻觉率大约是V3的4倍，这可能与推理型模型的内在特征有关。

前面提到过，GPT时代的提示词写法对DeepSeek可能并不适用，其根源就在于指令型模型与推理型模型的本质差异：

推理型模型更注重理解和推理，你只需提供目标或问题，它便能自行分析并寻找解决方案。
指令型模型则依赖于明确的指令和步骤，你需要给出详细指导，它会严格照做。

正因如此，DeepSeek提示词的技巧变成了一个公式：我要 [目标]，给 [受众] 用，希望 [核心诉求]，但担心 [潜在挑战]。

但话说回来，从工程控制的角度看，大多数时候我们其实并不希望模型自由发挥。例如，工程上更期待一种关键词识别匹配的方式：

学生表达	焦虑类型	具体分类
我快气炸了	学习压力过大	考试焦虑
我心态崩了	学习压力过大	高认知负荷
我复习了半天，但还是不会	学习压力过大	完美主义焦虑

在这种场景下，推理型模型的表现可能反而不如指令型模型——当然，具体情况还需通过测试来验证。

简单来说，模型越自由，幻觉的风险就越高。当模型通过长思维链进行推理时，会从不同角度思考问题，而这些角度未必与现实相符，幻觉由此产生。

从V3到R1发生了什么变化？

R1模型主要通过将V3进行强化学习来实现效果提升，尤其是采用了GRPO算法。

但这种机制也存在隐患：如果奖励函数过度强调创造性或流畅性，而忽略了事实准确性，模型就会倾向于生成看似合理但实际并不符合事实的内容。

GRPO算法在处理复杂任务时，往往依赖长思维链推理，但在此过程中容易引入不切实际的假设或逻辑跳跃，进一步加剧幻觉。

更麻烦的是，R1的自我纠错机制尚不够完善，难以有效识别和修正幻觉。有些幻觉内容表面看起来相当合理，模型自身根本无法发现，而修正这些错误又需要大量的交互和反馈，成本极高。

如何消除幻觉

尽管R1的幻觉问题比较突出，但DeepSeek依然是目前国内最优秀的基座模型选择之一。因此，如何在工程应用中消除模型幻觉，是必须优先考虑的问题。

其实GPT也存在幻觉，所以这个问题早有答案：知识图谱+工程控制，最常见的手段就是RAG——一种结合信息检索与语言生成的技术架构。模型先通过检索外部知识源（如文档库、数据库等）找到与用户查询相关的信息，再基于这些信息生成更准确的回答。

具体来说，RAG的工作原理分为三步：

查询处理与理解：将用户的输入查询转化为适合检索的形式（通常是向量表示）。
信息检索：利用这些向量表示在预先构建的知识库或索引中搜索，找到与查询最相关的信息片段（文本段落或数据记录）。
生成答案：将检索到的信息传递给语言生成模型，生成基于事实的更准确回答。

通过结合外部检索结果，RAG能有效提升生成内容的质量，避免生成无关或错误的信息。

光说理论不太好理解，我们来看一个具体例子。

AI律师的幻觉问题

假设用户的问题是：在美国，房东和租户之间的法律义务是什么？

模型直接生成的回答可能长这样：在美国，房东和租户之间的义务包括租金支付、物业维护、终止合同和保证房产安全。然而，具体的法律义务因州而异，租户和房东必须遵守当地的法规。

这个回答看起来挺合理，但模型并没有提供具体的法律依据或准确的引用，生成的内容很可能存在错误，或者只是基于通用常识而非具体的法律条文。这就是典型的幻觉：看似真实但缺乏证据支持，很可能误导用户。

现在，我们把RAG技术应用到这个场景。假设AI律师模型可以访问外部的法律数据库，从中检索与房东和租户义务相关的法律条文或案例：

RAG增强后的回答：

根据《美国统一住宅租赁法》第504条，房东有责任确保租赁物业保持适宜的居住条件，负责维修和保养房产，租户则有义务按时支付租金并保持租赁物业的整洁。此外，在加利福尼亚州，根据《加利福尼亚州民法典》第1941.1条，房东必须确保提供安全的居住环境，包括处理水电和供暖系统的问题。如果房东未履行这些义务，租户可以根据法律要求赔偿。

这样一来，差异就非常明显了。

RAG如何消除幻觉

回到用户的问题：“在美国，房东和租户之间的法律义务是什么？”

这里AI应用的工程控制就体现出来了：

一、输入处理

用户提出一个问题后，模型需要理解并转化为可检索的形式。通常，模型会使用预训练的自然语言处理模型将输入转化为高维向量，然后与数据库中的文档进行比对，找到最相关的内容。

当然，如果不想依赖向量库，直接用关键词筛选也完全可以，关键看工程实现如何设计。向量库本质上是一种小模型——小模型因为数据量小，虽然大概率不会出现模型幻觉，但准确匹配的能力往往比不上数据库关键词检索。这是向量库技术最核心的问题。

总的来说，工程能力越强就越倾向于依赖关键词查询，至于究竟用什么，得看具体的业务形态。

二、信息检索

信息检索的目标是从外部知识库中找到与用户查询相关的文本片段。现在有些公司依赖向量库，有些则依赖一套关键词泛化知识库系统，目的都差不多。

假设查询是：“在美国，房东和租户之间的法律义务是什么？”

检索结果可能包括：

美国统一住宅租赁法第504条：房东有责任确保物业保持适宜的居住条件。
加利福尼亚州民法典第1941.1条：房东必须提供安全的居住环境，处理供水、供暖等系统问题。

三、提示词处理

只要根据关键词查询出内容，后续就是传统的提示词处理，没什么难度了。

最终，整合后的内容作为生成模型的输入。例如，结合了多个法律条文和案例的回答会是：

根据《美国统一住宅租赁法》第504条，房东有责任确保租赁物业保持适宜的居住条件，并进行必要的维修和保养。此外，在加利福尼亚州，根据《加利福尼亚州民法典》第1941.1条，房东必须确保提供安全的居住环境，处理供水和供暖等系统问题。如果房东未履行这些义务，租户可以根据法律要求赔偿。

接下来的完整流程可供参考：

完整流程对比

传统流程：

问题："在美国，房东和租户之间的法律义务是什么？"
提示词：你是一个资深律师，现在有用户问你法律问题，请你解答。当前用户的问题是：在美国，房东和租户之间的法律义务是什么？
结果："在美国，房东和租户之间的法律义务包括租金支付、物业维护、终止合同和保证房产安全。然而，具体的法律义务因州而异，租户和房东必须遵守当地的法规。"

可能的问题：

缺乏具体的法律依据。
没有提到具体条文或特定州的法律规定，很可能误导用户。

RAG流程：

提示词的变化是关键：

你是一个资深律师，现在有用户问你法律问题，请你解答。当前用户的问题是：在美国，房东和租户之间的法律义务是什么？以下是检索到的相关法律条文和案例，帮助你回答用户问题：

根据《美国统一住宅租赁法》第504条，房东有责任确保租赁物业保持适宜的居住条件，并进行必要的维修和保养。
根据《加利福尼亚州民法典》第1941.1条，房东必须确保租赁物业提供安全的居住环境，包括处理供水、供暖等系统问题。
《纽约州租赁法》第227条规定，房东有义务确保物业符合当地建筑标准，并为租户提供安全的居住条件。
美国法院在多个案例中判定，房东未能履行上述义务时，租户有权要求赔偿，包括但不限于租金减免或搬迁费用。

请根据以上法律条文与案例回答用户的问题。

RAG生成的答案：

根据《美国统一住宅租赁法》第504条，房东有责任确保租赁物业保持适宜的居住条件，并负责进行维修和保养。此外，在加利福尼亚州，根据《加利福尼亚州民法典》第1941.1条，房东必须确保租赁物业提供安全的居住环境，包括处理供水和供暖等系统问题。如果房东未履行这些义务，租户可以根据法律要求赔偿。此外，依据《纽约州租赁法》第227条，房东还需确保物业符合当地建筑标准，并为租户提供安全的居住条件。在多个法院判例中，房东未能履行上述责任时，租户有权要求赔偿，包括租金减免或搬迁费用等。

到这一步，模型幻觉问题基本就解决了。

模型训练手法

RAG是初期成本比较低的方式。如果想通过模型训练本身来消除幻觉，那也不是不可以——

例如，在训练时为不同类型的任务设定不同的策略，让模型学会什么场景下提供创造性内容，什么场景下保持忠实与准确。比如处理摘要、翻译等任务时，模型必须更加注重忠实于原文，而不是自由发挥。

但这种任务的训练通常需要额外的监督数据和约束，以保证输出的准确性。

不过真的要这么做的话，可能会陷入一个困境：为了1%的效果提升，花费超过10%的资源，这显然不划算。因为这类方法需要额外的数据标注、长时间的微调和强化训练，往往还需要更多计算资源和人工干预。微调过程中对模型的细致调控，也会增加模型开发和训练的复杂度。特别是在任务多样性面前，如何找到让模型既能提供创造性答案、又能保持高忠实度和准确性的平衡点，是一项极其复杂且资源密集的工作。

总体而言，虽然精细化训练可以降低幻觉，但其成本不容忽视。尤其是在需要大规模数据和计算资源的场景中，如何在技术优化与成本效益之间找到平衡，依然是大模型发展面临的重要挑战。

结语

在AI工程应用的实践中，模型幻觉始终是一道难以绕开的坎。

从业务场景出发，我们看到了企业中的AI应用困境。尤其是当AI无法满足业务对高准确性和可靠性的需求时，幻觉的出现往往让AI应用被贴上“无效工具”的标签。

这揭示了一个关键问题：AI不一定需要完全接管所有业务，但在法律、医疗等高要求的领域，模型的准确性必须得到保证，否则幻觉会直接毁掉应用效果。

通过对模型幻觉成因的分析可以发现，大模型的工作原理、训练数据的质量以及推理过程中的自由度过高，都是导致幻觉的原因。

RAG技术通过结合外部知识库，能为生成答案提供更具事实依据的支持，从而有效减少幻觉的发生。

但RAG技术并非完美。它依赖于外部知识库的质量和覆盖范围，也可能引入额外的系统复杂性和响应时间。

最后，虽然精细化训练（如微调、强化学习等）可以进一步减少幻觉，但这些方法成本较高。尤其在大规模应用中，如何在技术优化与成本效益之间找到平衡，依然是工程实践中的重要课题。