游乐游手机版
首页/科技数码/文章详情

搜索成本仅为推理十分之一却鲜为人知的行业真相

时间:2026-05-12 18:22
OpenClaw的爆火,让众多AI应用开发者第一次直面了高昂的Token账单——一个用户请求可能触发多轮工具调用,每次调用都携带超长上下文,实际的API成本远超预期,甚至可能达到订阅费用的数十倍。如何有效控制Token成本,正成为AI Agent开发者面临的核心挑战与增长瓶颈。 这显然不是可持续的商

OpenClaw的爆火,让众多AI应用开发者第一次直面了高昂的Token账单——一个用户请求可能触发多轮工具调用,每次调用都携带超长上下文,实际的API成本远超预期,甚至可能达到订阅费用的数十倍。如何有效控制Token成本,正成为AI Agent开发者面临的核心挑战与增长瓶颈。

这显然不是可持续的商业模式。一个成熟的AI应用,如果连自身的Token成本结构都无法清晰掌控,就难以实现商业化成功。问题的关键或许不全在于Token定价本身,而在于大量Token被消耗在了低效环节:重复的搜索请求、冗余的上下文信息、错误粒度的数据提取,以及不匹配的模型选择策略。

小米MiMo大模型负责人罗福莉此前也曾指出:Agent时代不属于盲目消耗算力者,而属于精于优化算力者。每一位AI从业者,都应建立自己的“Token经济学”思维。

带着对AI Agent成本优化的深度思考,我们专访了杜知恒:小宿科技的CEO兼联合创始人,一位亲历了搜索引擎从PC到移动互联网完整变迁的行业老兵。小宿科技的核心业务是智能搜索,专注于为AI Agent提供高效、精准的搜索引擎服务。这并非面向普通用户的搜索,而是专为Kimi、DeepSeek、Manus等AI Agent产品调用的底层搜索基础设施。目前,国内超过半数的头部Agent企业都在使用其搜索API,月调用量已达数亿级别。

在智能搜索领域深耕多年,杜知恒对于“如何高效使用Token”、“如何优化搜索与推理的协同”积累了丰富的实战洞察。我们与他深入探讨了以下关键议题:如何通过智能搜索从源头节省Token?搜索与模型推理应如何高效配合?面对众多模型,开发者应如何制定最具性价比的选择策略?

一、智能搜索:从信息源头实现精准投喂

问:我们常提AI“联网搜索”,但AI Agent调用搜索引擎,与人类使用浏览器搜索,在本质上有何不同?

杜知恒:两者存在根本性差异。人类使用搜索引擎的本质是“信息浏览”——会被标题吸引,通过摘要判断是否点击,并逐条阅读。因此,传统搜索引擎长期优化的核心目标是提升相关性与点击效率,关键指标是CTR(点击率)。

然而,AI Agent调用搜索的根本目的并非浏览,而是获取执行特定任务所必需的“结构化原材料”。Agent可能基于搜索结果进行研究分析、撰写报告、制定计划,或将结果传递给下游工具进行进一步处理。在Agent的任务链路中,搜索结果不是一个供选择的“入口”,而是任务执行的“基础物料”。

这一本质区别导致了优化目标的彻底转变。你不再需要将最易点击的链接置顶,而是需要交付一组具备完整性、高可信度、可追溯、且易于模型高效解析的内容。举例来说:若让Agent规划一次新加坡亲子游,它不会像人类一样逐条点击比较,而是需要快速抓取签证政策、航班信息、酒店价格、儿童设施、天气状况、安全须知等全方位信息,并将其整合为可执行的行程方案。此时,搜索的作用是批量、快速、精准地提供任务执行所需的所有原材料。

问:当前AI生成内容泛滥,部分内容甚至存在“一本正经的胡说八道”,搜索引擎能否有效识别这类信息?

杜知恒:我们构建了多层次的质量控制体系。

第一层是基础的信源与内容质量筛选。这包括分析网页间的引用关系、判断是否来自权威媒体或官方机构、评估语言表达的逻辑性与结构性等,模型会对此进行综合评估。

第二层是信息密度与原创性判断。评估内容是否提供了真实的信息增量?是否有原始出处?还是仅仅是对已有内容的简单复述或聚合?时间戳在此至关重要——若一条内容的发布时间晚于其原始信源,则很可能仅为转述。

第三层是交叉验证。我们将待判断的内容与原始发布源——如最新官方文件、学术论文、权威数据库、可信媒体——进行比对。若一条信息链条完全由转述构成,其可信度将大打折扣。

此外,我们还会严格控制搜索结果间的互补性。对人类用户而言,10条结果中有7条内容重复尚可接受,点击一条即可。但对Agent而言,重复即意味着资源浪费。它需要的是不同视角、不同信源的信息覆盖,确保每条结果都能提供增量价值。

问:这里存在一个关键问题:传统搜索引擎依赖点击率进行迭代优化,但Agent并不点击,你们如何评估搜索结果的质量?

杜知恒:这正是Agent时代构建搜索系统面临的核心挑战之一。人类搜索行为会产生清晰的点击信号,CTR高低直接反映结果优劣,A/B测试直观有效。但对于Agent,无论搜索结果质量如何,客户通常都是直接获取10条或20条完整内容,我们无法获得任何点击行为数据。

因此,反馈来源转变为客户自身。当客户的Agent在特定场景下表现不佳时,其自身能够感知——终端用户会追问、给出负面反馈,或Agent反复处理同一已解答的问题。这些信号虽不像点击率那样非黑即白,但均可作为强化学习用于优化排序与召回策略的有效输入。

问:这是否意味着你们必须与客户建立深度绑定关系?客户是否愿意共享优化所需的反馈数据?

杜知恒:这本质上是一个信任构建与数据合作的问题,也是该赛道的核心壁垒所在。客户若要优化其Agent质量,就需要对调用的搜索API提出更具体的要求与改进建议。然而,反馈信号是最具价值的数据资产,只有建立在足够信任的基础上,客户才愿意开展共建。

信任的前提是基础能力达标。搜索服务至少需达到主流商业引擎的水平,客户才会认真考虑合作。在此基础上,客户会告知我们在某些垂直领域的前几条结果存在何种问题,或某类查询的返回结果总是不尽人意。这更像一种长期的、基于日常交互的市场关系:双方持续协作,当客户指出“周四的鱼不够新鲜”,我们就去优化对应的“供应链”。

高质量的深度合作客户必然是有限的,我们也会审慎选择合作伙伴。接收所有信号等同于没有信号,我们需要那些需求具备普适性、反馈能真正帮助提升基础能力的客户。这种基于共同目标的互依关系,对双方而言都具有长期价值。

二、搜索与推理解耦:能查询就别计算

问:当前许多开发者直接使用模型内置的搜索能力(如GPT的联网功能)。将搜索层独立出来,有何具体优势?

杜知恒:从抽象层面看,人类解决问题无非两种路径:一是依靠脑力进行推理计算,例如解数学题;二是进行查询,借助字典、搜索引擎等工具寻找现成答案。对Agent而言,逻辑完全相同:一是利用模型进行推理,二是通过互联网搜索获取原生信息。

在绝大多数情况下,查询比推理更可靠、也更经济。推理可能产生幻觉,搜索虽不能保证100%准确,但其错误率远低于凭空推理。更重要的是,推理过程消耗的Token数量通常远超一次搜索调用。因此,对于任何存在确定答案或可查询信息的问题,优先调用搜索的性价比远高于让模型自行推理。

目前,许多Agent尚未建立“搜索优先”的思维习惯,大量本可通过简单查询解决的问题走了复杂的推理链路,导致结果既不准确,成本也不经济。

问:在具体任务执行中,搜索应被嵌入在链路的哪个环节?

杜知恒:搜索并非单点触发,而是嵌入在任务链路的中间层。仍以旅行规划为例:Agent接收到任务后,首先通过推理将任务分解为若干子问题——目的地概况、签证要求、航班选项、酒店信息、儿童设施等。随后,针对每一类子问题,调用最合适的工具:部分调用通用搜索引擎,部分直接调用携程等垂直API,部分调用天气服务。最后,再通过推理将所有结果整合为可执行的方案。

因此,一次完整任务的最优结构是:推理拆解 → 多层搜索与工具调用 → 推理整合。首段推理负责问题分解,末段推理负责结果综合,中间的执行链路则尽量交由搜索和专用工具承担。这才是性价比最高的Agent架构设计。

问:搜索结果的输出形式应如何确定?何时返回长文本,何时返回短摘要?

杜知恒:这取决于客户具体场景的优先级。有些场景追求低延迟,例如聊天机器人实时回复,用户等待容忍度低,此时应返回精炼摘要,便于Agent快速整合答案。有些场景则追求高质量,例如学术研究、生成深度报告,此时需要提取网页甚至PDF的完整内容,为Agent提供干净、完整的长文本作为工作原材料。

这并非由我们单方面决定,而是基于客户的具体业务场景进行配置。本质上,这都是实时数据的获取与交付,只是形态不同。对于客户的Agent而言,搜索结果是一种输入,不同场景对输入格式与信息密度的要求截然不同。

三、Token节省之道:关键在于策略性选择

问:模型选择日益增多,开发者应如何决策?同一产品的不同功能场景,能否使用不同的模型?

杜知恒:这是当前许多开发者面临的现实困惑。一个常见的误区是,将问题简单理解为“究竟该选择哪一个最强的模型”。

然而,真实业务并非如此运转。一个Agent要完成任务,通常同时涉及数据获取、信息处理、上下文组织、模型推理和工程编排等多个环节。

这些环节相互关联,并非彼此独立。许多表面上的模型效果问题,其根源可能是数据质量不足、上下文过长或链路设计不合理;表面上的调用成本高企,深入分析后往往发现,也并非模型本身昂贵,而是不同复杂度的任务被塞进了同一种处理流程。

从我们的视角看,开发者不仅可以在,而且应当在同一产品的不同场景中,使用不同能力层级的模型。

因为同一个产品内部,本就存在多种性质的任务:有些是分类、信息抽取、翻译、文本改写等相对标准化的任务;有些则是复杂理解、长链路决策、多工具协同等更依赖深度推理的任务。它们对模型能力、稳定性、延迟和成本的要求本就不同。

若所有场景都采用同一套最高配置,效果未必最优,成本通常不合理;若一味追求低价,将所有任务压给低配模型,则容易在稳定性和结果质量上出现问题。

真正的关键,并非先问“哪个模型最强”,而是先厘清任务链路,明确每个环节究竟需要何种能力、何种质量要求、何种响应速度,以及何种成本结构。

当这些问题清晰后,模型选择便会水到渠成:不是围绕模型去设计产品,而是围绕具体场景去配置最合适的能力组合。

问:您曾提及模型内置搜索的成本是独立搜索API的5到10倍。罗福莉也指出许多系统频繁压缩搜索结果导致缓存失效。这个倍数具体如何产生?开发者将搜索从模型中解耦并单独采购,实际能节省多少成本?

杜知恒:这个5到10倍的差异,是多重成本叠加的结果。

第一层,搜索结果变成了持续的上下文负担。正常情况下,一次搜索调用在返回结果后即结束。但当搜索被绑定在模型内部时,这些内容会进入长上下文,在后续每一轮推理中被反复携带——成本从“一次性查询”变成了“多轮放大”。

第二层,对搜索结果的二次处理本身也在消耗Token。许多系统会对结果进行摘要、压缩、改写后再塞回模型,本意为节省成本,但若策略不当,这一步本身就在产生额外Token消耗,同时还可能丢失关键信息,导致既未省钱,效果反而下降。

第三层,缓存命中率大幅降低。搜索结果具有高度动态性,一旦进入上下文,每次输入都在变化,几乎导致缓存复用机制失效。

第四层,将本应在模型外完成的工作全部交给了模型。网页抓取、正文提取、去重、排序、结构化等操作,在模型外部可以高效完成。若全部交由模型处理,无异于用最昂贵的系统执行性价比最低的任务。

这几层因素叠加,便产生了可观的成本倍数。

我们的解决思路是尽可能将这些处理动作前置,在信息进入模型之前就完成“形态优化”。但这存在一个现实矛盾:过度压缩会丢失细节,直接喂入全文则成本高昂。

这也是我们开发“Chunks”(智能片段提取)功能的原因——从原始内容中提取与当前问题最相关的片段并重新组织,而非整篇塞入。例如,在进行投资研究时,若Agent需要分析一家公司,直接阅读20篇全文(每篇约1000字)的总输入约2万字;通过Chunks提取关键片段重组后,输入量可降至原内容的约70%,关键细节得以保留,Token成本降低约30%,同时信息覆盖率仍能维持在95%以上。

回到您的问题,解耦具体能省多少?很难给出统一数字,不同业务链路差异很大。但如果原架构是“模型内直接接搜索 + 大量结果反复进入长上下文”的模式,在完成解耦并增加前置结构化处理后,成本、延迟、稳定性通常都会有显著改善。

真正节省的,不仅是单次调用的费用,更是整条Agent链路中大量原本不必要的Token消耗。

问:如何成为善用算力的“聪明人”?如果一个AI团队希望降低Token成本,您建议他们优先优化搜索环节,还是优先优化模型选择?哪个环节的降本空间更大?

杜知恒:如果只能给一个建议,那就是:先别急于更换模型,首先审视并优化输入信息与任务链路。

原因很直接。从我们接触的大多数团队来看,最容易被忽视、但也最容易导致成本放大的环节,往往不是模型本身,而是搜索策略与上下文组织方式。

逻辑很简单:如果搜索结果本身冗长、重复、缺乏结构,或者同一份材料在链路中被反复拼接、摘要、送入模型,那么无论后续更换何种模型,本质上都是在为无效的Token付费。

因此,优化第一刀通常应落在前端的输入治理上:搜索结果是否过长?是否存在重复内容?是否将网页正文、摘要、历史上下文不加区分地一并塞入?哪些信息根本无需进入模型?哪些内容可以复用,哪些又在每次都被重新计算?

将这些问题理顺后,模型选择优化的价值才能稳定体现。因为此时你是在一个更干净、更克制的输入基础上进行能力分配,而非在一堆已然失控的上下文上进行局部修补。在后一种状态下更换模型,大概率只是换了一种更贵或更便宜的方式继续浪费资源。

因此,如果必须排序:短期内最容易见到显著降本效果的,往往是搜索与上下文治理;中长期最稳定、最体系化的优化,则需要将前端的信息治理与后端的推理能力分配协同进行。前者解决的是“不该喂给模型的东西太多”,后者解决的是“不该使用高配模型的地方太多”。

将这两件事结合起来,才是真正意义上的Token效率优化与AI Agent成本控制。

来源:https://www.163.com/dy/article/KSNL4TMK0511N33R.html
上一篇三星手部姿态识别专利实现键盘智能交互 下一篇荣耀平板20发布12.1英寸3K类纸屏配多彩外观
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
全球首个养猪行业大模型在河南成功落地应用
科技数码 · 2026-06-02

全球首个养猪行业大模型在河南成功落地应用

牧原与阿里云联合打造全球首个养猪行业大模型,覆盖智能育种、环境调控、疾病诊断等环节,实现秒级健康判断。目前已覆盖1173个养殖场,部署超330万套智能设备,每日采集20亿条数据,推动畜牧业数字化转型。

Token经济学重塑全球金融新格局
科技数码 · 2026-06-02

Token经济学重塑全球金融新格局

Token正成为智能时代国际贸易新单元,凝结算力、电力与算法。中国AI模型调用量全球榜首,DeepSeek以极低成本实现规模效应,推动Token出口新模式,将西部绿电转化为数字服务。中美AI形成互补共生格局,规则之争成为新秩序起点。

OpenAI进军机器人赛道,山姆·奥特曼亲自招聘
科技数码 · 2026-06-02

OpenAI进军机器人赛道,山姆·奥特曼亲自招聘

OpenAI重启机器人项目,首席执行官山姆·奥特曼公开招聘硬件、运维及机器学习工程师。内部“世界模拟”项目已转向机器人研究,短期聚焦支持熟练工人,长期目标是实现人人拥有个人机器人。

闲鱼AI误将文物识别为文玩 官方回应将加强提醒
科技数码 · 2026-06-02

闲鱼AI误将文物识别为文玩 官方回应将加强提醒

闲鱼AI相机将陕西历史博物馆镇馆之宝照片误识别为文玩,自动上架标价6000元。平台解释系AI误判,已接入国家文物局数据库并设高敏类目门槛,但自动化流程跳过人工确认。闲鱼承诺加强商品上架提醒与用户确认环节,避免类似误会。

联想斗战者锋7000X台式机新品发布售价5499元起搭载RTX5060Ti
科技数码 · 2026-06-02

联想斗战者锋7000X台式机新品发布售价5499元起搭载RTX5060Ti

联想斗战者锋7000X台式机开售,起步价5499元。提供酷睿i5与锐龙R5配RTX显卡三款配置,均搭16GB内存和512GB存储。标配3年保修上门,支持Wi-Fi6与蓝牙5 3,500W电源,硬核机甲风设计,机箱采用1mm加厚材料。