如果要用一句话说清楚当前AI应用开发最核心的方向,那便是:智能体(Agent)、大语言模型(LLM)以及围绕它们构建的技术框架。三者关系类似于大脑、意识与执行的手脚。接下来逐一拆解,解释它们是什么以及如何协同工作。
什么是智能体 (Agent)
智能体可理解为基于大语言模型(LLM)的“自动驾驶系统”。它能感知环境、独立决策并采取行动完成具体目标。与传统AI仅执行预设规则不同,智能体具备自主思考、调用工具乃至自我修正的能力。
简而言之,它模仿人类解决问题的模式:先理解问题,再拆解步骤,逐步执行,最终达成目标,全程无需人工持续介入。
通用智能体平台
以智能体为核心扩展便形成通用智能体平台。平台核心攻关方向聚焦于智能体的关键能力:感知、记忆、规划与执行。
具体而言,智能体需能识别问题、记忆历史、拆分任务并调用合适工具。只有这四项能力完善,平台才能适应多样化的业务场景和日常办公需求——无论是提供个性化服务还是辅助工程师高效工作,均以此为基础。
什么是LLM (Large Language Model)
大语言模型是基于深度学习的语言处理模型,通过在海量文本数据中学习,掌握语言模式与规律,从而理解并生成自然语言文本。
LLM应用场景广泛,涵盖文本生成、机器翻译、自动摘要、对话系统及情感分析等。其突出优势在于强大的泛化能力——一个训练好的模型可胜任多种语言任务,而非传统模型的单一专用。
LLM的训练及使用
LLM训练分为两个阶段:
预训练阶段:模型在大规模未标注文本上进行自监督学习,掌握通用语言表示,相当于“通读万卷书”以理解语言底层逻辑。
微调阶段:在预训练基础上,使用特定标注数据进行有监督学习,定向培养模型适应具体场景,如优化客服对话能力。
LLM的使用方式有两种:日常用户通过输入提示词(Prompt)获取回答;开发者则通过API接口以编程方式调用模型能力,集成到自身应用中。
基于LLM的Agent框架
若将LLM比作大脑,则完整的Agent框架还需三个核心组件协同:
- 记忆:对应人类长短期记忆,包含运行历史、系统数据及执行中的中间信息。
- 规划技能:涉及提示词编排、意图理解、任务分解与自我反思,使智能体学会“思考”。
- 工具使用:智能体执行任务时可调用的外部接口,如搜索、计算、数据库等。
Transformer架构
LLM的技术根基是Transformer架构,一种基于自注意力机制的深度学习模型,其核心优势在于能够并行处理序列数据,极大提升训练效率与性能。
参数规模
当前LLM采用大规模神经网络,参数量从百万到千亿不等,例如通义千问(Qwen-7B)拥有70亿参数。参数越多,模型学习与泛化能力越强,但计算成本和资源消耗也显著增加。
什么是RAG
LLM回答问题依赖训练所学知识,若遇到未见问题,可能产生“大模型幻觉”,即胡编乱造。
RAG(检索增强生成)技术正是为解决幻觉而设计。核心思路:模型生成回答前,从外部知识库检索相关信息,整合到提示词中,使模型基于事实与知识库生成答案,大幅降低幻觉倾向。
利用RAG减少幻觉
企业可构建专属知识库,LLM回答时优先从该知识库提取依据,从而提升回答准确性与内容可控性。
RAG的优势
相比通过微调模型注入知识,RAG具有维护灵活的优势:企业可随时增删改查文档,更新频率高、成本低。
RAG的整体流程
RAG完整流程分为两步:
一是事前索引:从私有文档构建知识库(图中蓝色虚线链路)。
二是即时查询:基于知识库进行问答(图中红色虚线链路)。整体可概括为“先检索,后生成”。
RAG的效果
- 第一,使LLM具备私有领域知识回答能力,有效降低幻觉。
- 第二,回答附带原文出处,提升检索效率并便于用户核对。在智能问答、文档摘要、数据整理等场景中,RAG作用日益凸显。
什么是提示词 (工程)
提示词(Prompt)是用户向LLM提供的输入指令,用于引导模型生成特定输出。
提示词的分类
提示词通常分为两类:
系统提示词:由应用开发者预设,定义模型行为模式与响应框架。
用户提示词:用户提出的具体问题。
日常场景中,“提示词”通常指用户提示词。
提示词对LLM的影响
LLM回答质量很大程度上取决于提示词质量。清晰具体的提示词有助于模型准确理解用户意图,输出更贴切完善的回复。
如何优化提示词
关键原则:指令清晰具体。若对输出格式有要求,最好提供参考示例。例如,问“帮我规划一个7天日本行程”不如问“帮我规划一个7天日本行程,每天按上午、下午、晚上三段列出,并注明交通方式”。
如何编写更好的提示词
一个完善的提示词通常包含以下基本组成部分:
- 指令:明确要求模型执行的任务。
- 指令的对象:需要模型处理的文本或问题。
- 示例:提供参考案例或思维模型。
- 输出要求:明确输出内容与格式。
- 异常处理:模型无法执行或信息不足时的应对策略。
举个例子,同样是询问旅游规划,你会发现:如果直接扔一个笼统的问题给LLM,它也能回答,但效果往往平平。而如果你花时间和心思编写一个完善的提示词,得到的答案质量会有显著提升。这背后其实是“投入多少,收获多少”的朴素道理。
