2月4日消息,近期,腾讯混元团队与复旦大学联合团队共同发布了一篇题为《CL-bench》的论文。
值得关注的是,这也是姚顺雨加入腾讯、担任首席AI科学家后,首次署名发布的研究论文。
他在文中指出,当前人工智能与真正智能之间的核心差距,并非在于知识储备的多少,而在于持续学习的能力。
一个知识库庞大却不懂得学习的AI,就如同一个背下整本字典却不会写作的人,看似博学,实则思维僵化。

人类的学习并不依赖于多年前习得的“死”知识,而是能够实时地从眼前的具体情境中汲取新知并加以运用。
在这篇论文中,研究团队提到,即使是当前的大型语言模型,在有效利用上下文信息方面,依然存在显著的短板。
为了准确衡量现有模型距离真正的“上下文学习者”还有多远,研究团队构建了CL-bench基准测试。
这是一个专门用于评测语言模型能否从上下文中学习新知识并正确应用的专业基准。
CL-bench包含了由资深领域专家精心制作的500个复杂上下文、1899个具体任务,以及31607个验证标准。
CL-bench只包含一个简单却严苛的核心要求:“解决每个任务时,模型必须从提供的上下文中,学习到它预训练阶段不曾具备的新知识,并将其正确应用。”
通过实验发现,全球排名前十的语言模型在CL-bench上的任务解决率平均值仅为17.2%。
这意味着,即便是目前最顶尖的语言模型,在利用上下文进行学习和推理方面,表现依然不尽人意,甚至可以说,它们还未真正掌握从动态情境中学习的能力。
不过,这一结果也为大语言模型未来的迭代指明了可能的方向:强化模型从具体上下文中进行实时学习的能力,将是迈向更高级智能的关键一步。
