腾讯复旦联合发布CL-Bench基准,揭示大模型上下文学习缺陷

2026年2月4日,腾讯混元团队与复旦大学联合研究组正式发布首篇合作论文CL-bench。该成果也是姚顺雨担任腾讯首席AI科学家以来,首次以作者身份参与发表的学术论文。
论文指出,当前人工智能与人类智能之间的核心差距,并非源于知识储量的多寡,而在于持续学习与即时适应的能力。一个仅靠预训练灌输大量静态知识却无法从新情境中主动获取并运用信息的模型,恰如熟记整部字典却无法组织语言进行表达的人——表面渊博,实则缺乏应变与生成能力。人类智能的关键特征,在于能够基于当下所见所闻的上下文实时调整认知、提炼规律、完成推理,而非机械调用过往经验。
针对这一关键能力缺口,研究团队提出CL-bench评测基准,旨在系统评估大语言模型是否真正具备“从上下文中学习新知识并准确应用”的能力。该基准由领域资深专家历时数月构建,涵盖500组结构复杂、语义丰富的上下文样本,对应1899项细分任务及31607条精细化验证标准。
CL-bench设定了唯一但极具挑战性的核心要求:每个任务的解答,必须严格依赖上下文中提供的、模型预训练阶段从未接触过的新信息,并在理解后正确执行。实验结果显示,目前全球综合表现位居前列的十款大语言模型,在该基准上的平均任务完成率仅为17.2%。数据表明,即便最先进的模型,在上下文学习这一基础智能维度上仍存在明显不足,尚未形成稳定、可靠、可泛化的上下文内化与应用能力。
这一发现不仅揭示了当前技术的现实局限,也为后续模型架构设计、训练范式优化与评估体系完善提供了明确的突破方向:着力提升模型对动态上下文的感知力、抽象力与迁移力,使其真正成为具备实时学习能力的智能体。
热门专题
热门推荐
广东无人机适飞空域扩大16%至10 24万平方公里,覆盖全省57%陆地面积,滨海、郊野、工业园区及非核心城区公园等区域开放,深圳市区新增连片适飞区。飞行需通过民航局UOM平台提前申请,严禁“黑飞”,违者将受处罚。平台已升级,实现全国规则统一与分钟级空域更新,支持低空物流与巡检等应用。
杭州Costco门店因iPhone17系列手机引发抢购热潮,数百人排队致迅速断货。抢购源于官方降价与地方补贴叠加:iPhone17Pro全系直降千元,同时当地青年消费补贴可再减10%,最高省千元。双重优惠下,256GB版iPhone17Pro到手价低至7172元,较电商平台便宜近千元,吸引本地及周边消费者。目前门店仍处缺货状态,补货时间未定。
5月17日晚,长征八号运载火箭在海南商业航天发射场点火升空,成功将千帆星座第九批组网卫星送入预定轨道。此次发射是该发射场启用以来的第15次成功发射,也是今年第5次发射,体现了我国商业航天发射能力的日益成熟和常态化运营的稳步推进。
七彩虹新款iGameM15 M16Origo2026款游戏本已发售,起售价11499元。M15为15 3英寸黑色机身,配备2 5K300Hz屏,最高可选Ultra9处理器与RTX5070显卡。M16为16英寸白色款,屏幕规格相同,处理器性能更强,电池容量更大。两款均提供多种配置,享受国家补贴后价格更具竞争力,面向中高端游戏玩家与创作者。
联想在北美市场推出新款ThinkPadT14Gen7商务笔记本,支持用户自行更换LPCAMM2内存。该机型提供多款英特尔酷睿Ultra处理器选项,内存可选16GB至64GB,电池与屏幕亦有多种配置,其中顶配版搭载OLED屏幕。产品起售价为1618美元,高配版本价格超过3700美元,主要面向商用及专业办公市场,兼顾性能、可升级性与不同预算需求。





