游乐游手机版
首页/科技数码/文章详情

腾讯复旦联合发布CL-Bench基准,揭示大模型上下文学习缺陷

时间:2026-02-05 13:37
2026年2月4日,腾讯混元团队与复旦大学联合研究组正式发布首篇合作论文CL-bench。该成果也是姚顺雨担任腾讯首席AI科学家以来,首次以作者身份参与发表的学术论文。论文指出,当前人工智能与人类智

腾讯复旦联合发布CL-bench基准,揭示大模型上下文学习能力严重不足

2026年2月4日,腾讯混元团队与复旦大学联合研究组正式发布首篇合作论文CL-bench。该成果也是姚顺雨担任腾讯首席AI科学家以来,首次以作者身份参与发表的学术论文。

论文指出,当前人工智能与人类智能之间的核心差距,并非源于知识储量的多寡,而在于持续学习与即时适应的能力。一个仅靠预训练灌输大量静态知识却无法从新情境中主动获取并运用信息的模型,恰如熟记整部字典却无法组织语言进行表达的人——表面渊博,实则缺乏应变与生成能力。人类智能的关键特征,在于能够基于当下所见所闻的上下文实时调整认知、提炼规律、完成推理,而非机械调用过往经验。

针对这一关键能力缺口,研究团队提出CL-bench评测基准,旨在系统评估大语言模型是否真正具备“从上下文中学习新知识并准确应用”的能力。该基准由领域资深专家历时数月构建,涵盖500组结构复杂、语义丰富的上下文样本,对应1899项细分任务及31607条精细化验证标准。

CL-bench设定了唯一但极具挑战性的核心要求:每个任务的解答,必须严格依赖上下文中提供的、模型预训练阶段从未接触过的新信息,并在理解后正确执行。实验结果显示,目前全球综合表现位居前列的十款大语言模型,在该基准上的平均任务完成率仅为17.2%。数据表明,即便最先进的模型,在上下文学习这一基础智能维度上仍存在明显不足,尚未形成稳定、可靠、可泛化的上下文内化与应用能力。

这一发现不仅揭示了当前技术的现实局限,也为后续模型架构设计、训练范式优化与评估体系完善提供了明确的突破方向:着力提升模型对动态上下文的感知力、抽象力与迁移力,使其真正成为具备实时学习能力的智能体。

来源:https://ai.zol.com.cn/1130/11302471.html
上一篇织田裕二主演水俣传定档2026年2月,最终预告发布 下一篇奇艺科技VR场景数据替换专利:解决整包替换耗时低效难题
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
优必选CEO周剑:家庭机器人生态核心投入过半精力
科技数码 · 2026-07-01

优必选CEO周剑:家庭机器人生态核心投入过半精力

先说几个核心判断:优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上,直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进,现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景,另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛
科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛

6月30日,申银万国在光连接系列研报中重点指出,MPO光连接器领域的投资机会值得高度关注。通俗来说,随着AI算力集群持续扩张,光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件,如今它直接决定着链路插损、可

龙岗AR实景剧本游内测体验短板有效破解之道
科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上,区级部门一次性推出了7个AI“龙搭子”。其中,名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解,依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”,已在今年五一假期发布了内测版本。经过一个月市场验证后,该项目正式启动面向全社会的

南下资金6月30日净买入中芯国际与建滔积层板
科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日,南下资金持续大举买入港股,单日净流入金额高达58 95亿港元。接下来,我们直接盘点哪些个股获得资金青睐、哪些遭到减持: 净买入方面,中芯国际领跑全场,单日吸金19 33亿港元;建滔积层板紧随其后,净买入10 59亿港元;腾讯控股获得7 65亿港元净流入;智谱(02513 HK)也有6 5

电动汽车电池新国标7月实施热失控不起火不爆炸
科技数码 · 2026-07-01

电动汽车电池新国标7月实施热失控不起火不爆炸

自2026年7月1日起,两项关乎电动汽车安全的核心强制性国家标准将正式实施,为行业加装“安全锁”——《电动汽车安全要求》(GB 18384-2025)与《电动汽车用动力蓄电池安全要求》(GB 38031-2025)同步落地。此次标准升级,从整车架构与电池系统两大维度,精准填补了近年来多起事故暴露出的