Yann LeCun谈大模型未来路径:多模态预训练是关键

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
机器之心编辑部
在基础模型时代,大模型各项能力的爆发式增长,很大程度上得益于海量文本的预训练。但问题在于,文本本质只是人类对现实世界的一种抽象表达,是对真实世界信息的有损压缩。
借柏拉图《洞穴寓言》的比喻来说:语言模型早已非常擅长描述洞穴墙壁上的影子,却从未真正看到过投射这些影子的实体。它们能够很好地捕捉符号,却难以理解物理世界中高保真的物理规律、几何结构以及因果关系。
除了这种哲学层面的局限,还面临一个更现实的天花板:高质量的文本数据是有限的,并且正逐渐接近枯竭。
相比之下,视觉世界拥有近乎无限的信号来源。那些洞穴之外的信息,记录着现实世界最原始的动态变化,而这些恰恰是语言所无法完整表达的。
因此,未来的发展路径需要走出“影子世界”,直接去建模现实本身。
为此,来自Meta与纽约大学的研究者们转向了统一的多模态预训练:不再将视觉信号视作一种辅助输入,而是将其与语言一样,视为模型中的一等公民。

论文标题:Beyond Language Modeling: An Exploration of Multimodal Pretraining
相关攻略
头图由智象未来AI大模型生成智东西作者 王涵编辑 漠影在演唱会、各大晚会的舞台上,机器人伴舞团以整齐划一、精准卡点的舞姿惊艳全场。这种整齐划一不仅是硬件的胜利,更是“训练有素”的结果。具身智
智东西编译 陈佳编辑 程茜智东西4月3日消息,今日谷歌DeepMind开源发布Gemma 4系列模型,根据最新博客,这是谷歌迄今为止最智能的开放模型,专为高级推理和智能体工作流而设计,实现了单位参数
带着 Seedance 2 0 和 ArkClaw 两件新武器,火山引擎开始席卷 MaaS 市场。作者|郑玄两年前,火山引擎说要 All in Token 的时候,很多人觉得这是一句正确但空洞的口号
一个学生忽视了一行代码,结果发现了一件很不对劲的事:在一个多模态医学AI项目中,这行代码原本负责让模型读取图像数据。但因为这次疏忽,模型实际上完全没有看到任何图片。按理说系统应该报错,或者至少拒绝回
智通财经APP获悉,中信证券发布研报称,2026年以来,国产大模型厂商聚焦Agent及代码能力升级,竞相发布新模型。即将发布的DeepSeek下一代新模型有望延续高性价比开源模型路线,在能力上实现更
热门专题
热门推荐
当代互联网技术飞速进步,口号已成为普遍被使用的短语 在信息爆炸的今天,一句精炼有力的口号,往往能迅速传递品牌或活动的核心理念,甚至演变为一种深入人心的文化符号。那么,哪些标语能够真正触动人心,将抽象的服务宗旨转化为具体可感的信任呢?本文将聚焦于医疗健康这一特殊领域,为您深度解读一组关于文明就医与人文
微软年度开发者盛会概览微软Build大会是该公司每年面向全球开发者、工程师和技术决策者举办的最重要技术盛会。它不仅是微软展示其最新技术成果、平台更新和未来愿景的舞台,更是开发者们获取前沿知识、学习最佳实践以及直接与产品团队交流的核心渠道。大会通常持续数日,包含主题演讲、技术深度解析、实践工作坊以及丰
《大航海时代起源》:在无垠海域中,书写你自己的航海史诗 《大航海时代起源》(英文名“Uncharted Waters Origin”)的核心魅力,正如其名,在于开启一段关于自由探索、跨洋贸易与开拓未知疆域的宏大冒险。游戏从角色创建伊始,便将命运的舵盘交予玩家。性别、外貌乃至性格倾向,这些基础的自定义
《完美证据》:一场“慢”与“快”的七年对赌 在当下追求“拍完即播”的影视快消时代,《完美证据》的出现,宛如一位闯入百米赛道的马拉松选手。当行业竞逐速度时,它却历经七年打磨才姗姗来迟。观众不禁好奇:耗时如此之久,这部剧究竟在打磨什么?它的“慢”,是否藏着独特的价值? 审视其时间线,最值得玩味的或许不是
AI食谱生成器是什么 简单说,它是一种能帮你“凭空变出”菜谱的智能助手。这工具由多个技术团队合力开发,核心目标很明确:让每个人,无论是经常下班的上班族,还是爱钻研美食的厨艺爱好者,都能根据手边有的食材和个人口味,快速获得一份专属的烹饪方案。它让做饭这件事,从“今晚吃什么”的难题,变得轻松、个性,甚至





