在2026年5月13日举办的百度Create AI开发者大会上,百度正式提出了一个全新的行业关键指标:日活智能体数(DAA)。百度创始人李彦宏深入阐释了这一指标的核心意义——旨在引导行业将关注焦点,从过去单纯衡量算力消耗(Token数量),转向评估智能体在真实业务场景中的“生存状态”与“工作效能”:即它们是否保持稳定活跃,并真正为用户解决了实际问题。

一个生动的类比是:DAA对于智能体时代的重要性,正如日活跃用户数(DAU)定义移动互联网时代一样。其根本价值在于解答一个核心疑问:我们投入应用的AI智能体,究竟是在“闲置休眠”还是在“创造价值”?它衡量的核心是智能体被有效调用、并持续参与关键工作流程的活跃状态,而不仅仅是计算资源的消耗量。
当然,任何单一评估维度都存在其局限性,DAA指标也不例外。一个明显的挑战在于,它难以精准量化不同任务之间的巨大差异:一次简单的信息检索与一个复杂的多步骤业务流程自动化,两者所需的智能水平、资源投入及最终产生的业务价值天差地别,但在DAA的统计口径下,可能仅仅表现为“1”次与“1”次调用的区别。此外,若单纯追求活跃数量的增长,也可能导致“虚假繁荣”——大量低效运行、重复触发或仅进行浅层交互的智能体,虽然能推高DAA的数值,却未必能带来实质性的业务增长与效率提升。
因此,整个行业对AI智能体的评估体系正在向更精细化、多维化的方向演进。在学术研究前沿,诸如τ-bench这类新型基准测试开始受到重视,它通过评估智能体在复杂、长周期任务中持续达成最终目标的成功率,来检验其长期执行的可靠性与逻辑连贯性。而在企业落地实践层面,一套名为CLEAR的综合评估框架更具参考价值,它通常全面涵盖成本效益、响应速度、任务完成率、结果准确性以及系统鲁棒性等多个关键维度。
这背后反映出一个明确的趋势:当AI智能体从技术演示走向企业的核心生产、研发与服务体系时,对其的评估逻辑必然需要发生根本性转变——从孤立地关注技术参数,转向构建一个与真实业务成果紧密挂钩的价值衡量体系。DAA指标的提出,正是这一深刻转型过程中的一个重要里程碑。它清晰地提示整个行业:是时候更加关注智能体应用的最终“效果”与“产出”,而不仅仅是其调用“流量”了。
