美团LongCat发布Agent评测基准VitaBench：高度贴近生活场景

首页

热心网友

转载

2025-10-21

10月20日最新消息，美团LongCat团队今日正式发布了一套高度贴近真实生活场景、面向复杂任务的大模型智能体评测标准——VitaBench。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

美团 LongCat 团队发布 Agent 评测基准“VitaBench”，号称“高度贴近真实生活场景”

根据最新介绍，VitaBench以外卖点餐、餐厅就餐、旅游出行三大高频生活场景为载体，构建了涵盖66个工具的交互式测评环境，并设计了跨场景的综合任务。举例来说，在旅游规划任务中，要求智能体通过思考、调用工具和用户互动，完整执行从买好票到订好餐厅的全流程。

该团队首次基于深度推理、工具使用与用户交互三大维度，对智能体任务进行了量化拆解，以可控方式构建复杂问题。研究发现，即便是当前领先的推理模型，在主榜（复杂跨场景任务）中的成功率也仅为30%，反映出智能体在处理真实生活复杂需求时仍有明显差距。VitaBench现已全面开源，旨在为推进智能体在真实生活场景中的研发与应用提供重要基础设施。

美团 LongCat 团队发布 Agent 评测基准“VitaBench”，号称“高度贴近真实生活场景”

随着大语言模型在复杂推理与工具调用能力上的快速进步，基于LLM的智能体在真实生活场景中的应用日益广泛。然而，现有智能体评测标准与现实生活场景的实际需求之间依然存在显著差距，主要体现在：工具生态过于简化、信息密度不足、模型探索性受限以及交互动态性缺失。

LongCat团队通过对美团生活服务场景的深入分析指出：现实世界任务的复杂性源于三大维度的交织影响——

推理复杂性：需整合多源信息、自主推理规划任务路径；

工具复杂性：需在高度互联的工具图中理解领域特征，精准调用目标工具；

交互复杂性：需在多轮对话中主动澄清、追踪意图、适应多样化的用户行为并给予反馈。

为系统衡量这三重挑战下的模型表现，团队构建了VitaBench，一个依托“生活服务”场景、高度仿真的综合性Agent评测基准。VitaBench的评测榜单将持续更新维护，现已全面开源：

项目主页：https://vitabench.github.io

论文链接：https://arxiv.org/abs/2509.26490

代码仓库：https://github.com/meituan-longcat/vitabench

数据集：https://huggingface.co/datasets/meituan-longcat/VitaBench

排行榜：https://vitabench.github.io/#Leaderboard

来源:https://www.ithome.com/0/890/879.htm

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：阿里夸克C计划布局AI：对话式应用对标字节豆包下一篇：小度AI眼镜11月亮相百度世界大会，今年上市销售

热门推荐

web3.0

美国SEC主席Paul Atkins证实：加密货币安全港提案已送交白宫审查

加密货币行业翘首以盼的监管里程碑，终于有了实质性进展。美国证券交易委员会（SEC）主席保罗·阿特金斯（Paul Atkins）近日证实，那份允许加密项目在早期获得注册豁免权的“安全港”框架提案，已经正式送抵白宫，进入了最终审查阶段。在范德堡大学与区块链协会联合举办的数字资产峰会上，阿特金斯透露了这

热心网友

04.08

web3.0

微策略Strategy报告：第一季录得144.6亿美元浮亏再斥资约3.3亿美元买进4871枚比特币

微策略Strategy报告：第一季录得144 6亿美元浮亏再斥资约3 3亿美元买进4871枚比特币市场震荡的威力有多大？看看Strategy的最新季报就明白了。根据其最新向美国证管会(SEC)提交的8-K报告，受市场剧烈波动影响，这家公司所持的比特币在第一季度录得了一笔惊人的数字——144 6亿

热心网友

04.08

web3.0

稳定币发行商Tether再扩Web3版图！Paolo Ardoino：正开发去中心化搜索引擎Hypersearch

稳定币巨头Tether的动向，向来是加密世界的风向标。这不，它向Web3基础设施的版图扩张，又迈出了关键一步。公司执行长Paolo Ardoino在社交平台X上透露，其工程团队正在全力“烹制”一个新项目——去中心化搜索引擎 “Hypersearch”。这个消息一出，立刻引发了行业的广泛猜想。采用D

热心网友

04.08

web3.0

Base链首个原生DeFi借贷协议Seamless Protocol倒闭将于2026年6月30日下线

基地位于Coinbase旗下以太坊Layer2网络Base的Seamless Protocol，日前正式宣告了服务的终结。这个曾经吸引了超过20万用户的原生DeFi借贷协议，在运营不到三年后，终究没能跑赢时间。它主打的核心产品是Integrated Leverage Markets（ILMs）——一

热心网友

04.08

web3.0

PAAL代币如何参与治理？社区投票能决定哪些事项？

PAAL代币揭秘：深度解析Web3社区治理的核心钥匙在去中心化自治组织的浪潮中，谁真正掌握了项目的话语权？PAAL代币提供了一套系统化的答案。它不仅是生态内流转的价值媒介，更是开启链上治理大门的核心凭证。通过持有并质押PAAL代币，用户能够对协议升级、资金分配乃至战略方向等关键事务投出决定性的一票

热心网友

04.08

美团LongCat发布Agent评测基准VitaBench：高度贴近生活场景

热门专题

最新APP

热门推荐