Ilya预言首个多模态架构将至:视觉语言融合开启AI新纪元
金磊 发自 凹非寺
量子位 | 公众号 QbitAI
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
当Ilya Sutskever最近公开宣称“纯靠Scaling Law的时代已经结束”,并断言“大模型的未来不在于单纯的规模更大,而是要架构变得更聪明”时,整个AI界都意识到了一场范式转移正在发生。
因为过去几年,行业似乎沉迷于用更多数据、更大参数、更强算力堆出更强的模型,但这条路正逼近收益递减的临界点。
Ilya和LeCun等顶尖AI大佬不约而同地指出:真正的突破,必须来自架构层面的根本性创新,而非对现有Transformer流水线的修修补补。
就在如此关键节点,一个来自中国研究团队的新物种横空出世:
全球首个可大规模落地的开源原生多模态架构(Native VLM),名曰NEO。

△《黑客帝国》主角Neo,图片由AI生成
要知道,此前主流的多模态大模型,例如我们熟悉的GPT-4V、Claude 3.5等,它们的底层逻辑本质上其实玩的就是拼接。
什么意思呢?
就是将一个预训练好的视觉编码器(比如 ViT)通过一个小小的投影层,嫁接到一个强大的大语言模型上。
这种模块化的方式虽说是实现了多模态,但视觉和语言始终是两条平行线,只是在数据层面被粗暴地拉到了一起。
而这项来自商汤科技与南洋理工大学等高校的联合研究,要做的就是从根上颠覆这一切。

在NEO这里,大模型不仅能看、会说,而且天生就懂视觉和语言是一体两面的道理。
更惊人的一组数据是,凭借这种原生多模态架构,NEO仅用十分之一的训练数据,就在多项关键评测中追平甚至超越了那些依赖海量数据和复杂模块堆砌的旗舰级对手!
那么NEO到底是怎么如何做到的,我们继续往下看。
为什么非得是原生架构?
在深入了解原理之前,我们还需要理解多模态当前的现状。
正如我们刚才提到的,当前主流的模块化架构,实则存在三大难以跨越的技术鸿沟。
首先是效率鸿沟。
模块化模型的训练流程极其复杂,通常分为三步:先分别预训练视觉编码器和语言模型,再通过一个对齐阶段让二者学会沟通,最后可能还需要指令微调。
这个过程不仅耗时耗力,成本高昂,而且每个阶段都可能引入新的误差和不一致性;视觉和语言的知识被割裂在不同的“房间”里,需要不断“传纸条”才能勉强协作。
其次是能力鸿沟。
视觉编码器在设计之初就带有强烈的归纳偏置。比如,它通常要求输入图像必须是固定的分辨率(如224x224),或者必须被强行展平成一维的token序列。
这种处理方式,对于理解一幅画的整体构图或许足够,但在面对需要捕捉细微纹理、复杂空间关系或任意长宽比的场景(比如一张长图、一张工程图纸)时,就显得力不从心。
因为模型看到的,只是一个被过度简化和结构化的骨架。
最后是融合鸿沟。
那个连接视觉和语言的映射,几乎都是停留在简单的表层,无法触及深层次的语义对齐。这就导致了模型在处理需要细粒度视觉理解的任务时常常捉襟见肘。
例如,让它描述一张复杂图表,它可能会混淆图例和数据;让它理解一个带有空间指示的指令,比如“把左边第二个红苹果放到右边篮子里”,它可能会搞错左右或数量。
究其根本,是因为在模型内部,视觉信息和语言信息从未被放在同一个语义空间里进行真正的、深度融合的推理。
也正因如此,NEO背后研究团队从第一性原理出发,直接打造一个视觉与语言从诞生之初就血脉相连的统一模型——
这个模型不再有视觉模块和语言模块的区分,只有一个统一的、专为多模态而生的大脑。
回顾AI发展史,从RNN到Transformer,每一次真正的飞跃都源于架构层面的根本性创新。
而过去几年,行业陷入了“唯规模论”的路径依赖,直到今天,以Ilya为代表的一批顶尖研究者才集体发出警示:Transformer架构的固有局限已日益凸显,仅靠堆叠算力和数据,无法通往真正的通用智能。
NEO的诞生,恰逢其时。它用一个简洁而统一的原生架构,有力地证明了:下一代AI的竞争力,关键在于架构有多聪明。
NEO背后的三大原生技术
NEO 的核心创新,体现在三个底层技术维度上,它们共同构建了模型的原生能力。

第一,原生图块嵌入(Native Patch Embedding)。
传统模型常预先采用离散的tokenizer或者连接vision encoder压缩图像信息或语义token。
NEO则是直接摒弃了这一步,它设计了一个轻量级的图块嵌入层,通过两层卷积神经网络,直接从像素出发,自底向上地构建一个连续的、高保真的视觉表征。
这就像让AI学会了像人类一样,用眼睛直接感受光影和细节,而不是先看一张被马赛克化的抽象图。
这种设计让模型能更精细地捕捉图像中的纹理、边缘和局部特征,从根本上突破了主流模型的图像建模瓶颈。

第二,原生三维旋转位置编码(Native-RoPE)。
位置信息对于理解任何序列都至关重要。文本是一维的,而图像是二维的,视频更是三维的(时空)。传统模型要么给所有模态用同一个一维位置编码,要么简单地拼接,这显然无法满足不同模态的天然结构。
NEO的Native-RoPE创新性地为时间(T)、高度(H)、宽度(W)三个维度分配了不同的频率:视觉维度(H, W)使用高频,以精准刻画局部细节和空间结构;文本维度(T)兼顾高频和低频,同时处理好局部性和长距离依赖。
更巧妙的是,对于纯文本输入,H和W的索引会被置零,完全不影响原有语言模型的性能。
这相当于给AI装上了一个智能的、可自适应的时空坐标系,不仅能精准定位图像中的每一个像素,也为无缝扩展到视频理解和3D交互等复杂场景铺平了道路。

第三,原生多头注意力(Native Multi-Head Attention)。
注意力机制是大模型的思考方式,在传统模块化模型里,语言模型的注意力是因果的(只能看到前面的词),而视觉编码器的注意力是双向的(能看到所有像素)。
NEO采取的方法,则是在一个统一的注意力框架下,让这两种模式并存。
当处理文本token时,它遵循标准的自回归因果注意力;而当处理视觉token时,它则采用全双向注意力,让所有图像块之间可以自由地交互和关联。
这种“左右脑协同工作”的模式,极大地提升了模型对图像内部空间结构的理解能力,从而能更好地支撑复杂的图文交错推理,比如理解“猫在盒子上方”和“猫在盒子里”的细微差别。
除了这三大核心,NEO还配套了一套名为Pre-Buffer & Post-LLM的双阶段融合训练策略。
在预训练初期,模型会被临时划分为两部分:一个负责视觉语言深度融合的Pre-Buffer和一个继承了强大语言能力的Post-LLM。
前者在后者的引导下,从零开始高效地学习视觉知识,建立初步的像素-词语对齐;并且随着训练的深入,这个划分会逐渐消失,整个模型融为一个端到端的、不可分割的整体。
这种策略便巧妙地解决了原生架构训练中如何在不损害语言能力的前提下学习视觉的难题。
十分之一的数据,追平旗舰
纸上谈兵终觉浅,实测数据见分晓。接下来我们就来看下NEO在实测中的表现。
纵观结果,最直观的体现就是数据效率——
NEO仅使用了3.9亿个图像文本对进行训练,这个数量级仅仅是同类顶级模型所需数据的十分之一!
它无需依赖庞大的视觉编码器或海量的对齐数据,仅凭其简洁而强大的原生架构,就在多项视觉理解任务上追平了 Qwen2-VL、InternVL3等顶级模块化旗舰模型。

在权威的评测榜单上,NEO的表现也是较为亮眼。
在MMMU(多学科综合理解)、MMBench(综合多模态能力)、MMStar(空间与科学推理)、SEED-I(视觉感知)以及POPE(衡量模型幻觉程度)等多个关键基准测试中,NEO均取得了高分,展现出优于其他原生VLM的综合性能,真正做到了精度无损。

尤其值得注意的是,当前NEO在2B到8B的中小参数规模区间内,展现出了较高的推理性价比。
对于动辄数十B甚至上百B的大模型来说,这些中小模型似乎只是玩具。但正是这些模型,才是未来在手机、机器人、智能汽车等边缘设备上落地的关键。
NEO不仅在这些规模上实现了精度与效率的双重跃迁,更大幅降低了推理成本。
这意味着,强大的多模态视觉感知能力,将不再是云端大模型的专属,而是可以真正普及到每一个终端设备上。
如何评价NEO?
最后,我们还需要讨论一个问题:NEO有什么用?
从我们上述的内容不难看出,NEO真正的价值,不仅在于性能指标的突破,更在于它为多模态AI的演进指明了一条新路径。
它原生一体化的架构设计,从底层打通了视觉与语言的语义鸿沟,天然支持任意分辨率图像、长图文交错推理,并为视频理解、3D空间感知乃至具身智能等更高阶的多模态交互场景预留了清晰的扩展接口。
这种为融合而生的设计哲学,可以让它成为构建下一代通用人工智能系统的理想底座。
更关键的是,商汤已开源基于NEO架构的2B与9B两种规格模型,释放出强烈的共建信号。
这一举措有望推动整个开源社区从当前主流的模块拼接范式,向更高效、更统一的原生架构迁移,加速形成新一代多模态技术的事实标准。
与此同时,NEO在中小参数规模下展现出的性价比,正在打破大模型垄断高性能的固有认知。
它大幅降低了多模态模型的训练与部署门槛,使得强大的视觉理解能力不再局限于云端,而是可以真正下沉到机器人、智能汽车、AR/VR 眼镜、工业边缘设备等对成本、功耗和延迟高度敏感的终端场景。
从这个角度看,NEO不仅是一个技术模型,更是通向下一代普惠化、终端化、具身化AI基础设施的关键雏形。
更重要的是,NEO的出现,为当前迷茫的AI界提供了一个清晰而有力的答案。
在Ilya等人共同指出行业亟需新范式的当下,NEO以其彻底的原生设计理念,成为了“架构创新重于规模堆砌”这一新趋势的首个成功范例。
它不仅重新定义了多模态模型的构建方式,更向世界宣告:AI的下一站,是回归到对智能本质的探索,通过根本性的架构创新,去构建能真正理解并融通多维信息的通用大脑。
这一步,是中国团队对全球AI演进方向的一次关键性贡献。或如预言,这正是通往下一代AI的必经之路。
相关攻略
寻找上海的城市视觉素材,既要新、又要多、还得可靠,有没有一个地方能同时满足这些要求? 最近有个平台做了件挺实在的事。IP SHANGHAI,这个上海的城市形象资源共享平台,为了庆祝上线五周年,对其视觉版权交易系统进行了一次重要升级。核心变化在于,创作者现在可以自主为上传的原创图片和视频设定价格,而使
续集魔咒是 Hollywood 铁律——《Beef》第二季却打破了它 说来有趣,这部口碑不降反升的亚裔复仇剧续作,让观众印象最深的,往往不是那些戏剧性的剧情转折,而是每一集里一闪而过的怪诞画作。这本身,就挺反常的。 正方:视觉符号才是续作的灵魂 通常来说,续集为了维持热度,要么堆砌新角色,要么制造更
从单镜头到电影叙事:交互式AI视频生成的技术突破 这项由香港中文大学多媒体实验室、快手科技以及香港创新科技研究院联合开展的研究,已于2026年3月发表在计算机视觉顶级会议上,论文编号为arXiv:2603 25746v1。对技术细节感兴趣的读者,可以通过该编号查阅完整的学术论文。 当前的AI视频生成
原生Steam Link应用正式登陆苹果Vision Pro,实现4K高清游戏串流体验 游戏玩家们迎来重磅消息。根据知名科技媒体9to5Mac的报道,Valve已正式推出专为visionOS系统开发的原生Steam Link应用测试版。苹果Vision Pro用户现在即可通过TestFlight平台
头图由智象未来AI大模型生成智东西作者 王涵编辑 漠影在演唱会、各大晚会的舞台上,机器人伴舞团以整齐划一、精准卡点的舞姿惊艳全场。这种整齐划一不仅是硬件的胜利,更是“训练有素”的结果。具身智
热门专题
热门推荐
这项由清华大学、美团、香港大学等多家顶尖机构联合开展的研究,于2026年3月以预印本论文(arXiv:2603 25823v1)的形式发布。它直指当前AI视觉生成领域一个被长期忽视的核心问题:这些能画出“神作”的模型,到底有多“聪明”?研究团队为此构建了一套全新的测试基准——ViGoR-Bench,
人工智能的浪潮席卷了各个领域,机器在诸多任务上已展现出超越人类的能力。然而,有一个看似寻常却异常复杂的领域,始终是AI研究者们渴望攻克的堡垒——让机器像真正的学者那样,撰写出一篇结构严谨、逻辑自洽、图文并茂的完整科学论文。这远比下棋或识图要困难得多。 2026年3月,一项由中科院AgentAlpha
这项由法国Hornetsecurity公司与里尔大学、法国国家信息与自动化研究院(Inria)、法国国家科学研究中心(CNRS)以及里尔中央理工学院联合开展的研究,发表于2026年3月31日的计算机科学期刊,论文编号为arXiv:2603 29497v1。 在信息爆炸的今天,我们每天都在网上留下数字
当你满怀期待地拆开一台全新的智能设备,最令人困扰的往往不是如何使用它,而是如何让它真正“理解”指令并智能地执行任务。如今,一个更为优雅的解决方案可能已经出现。来自清华大学深圳国际研究生院与哈尔滨工业大学(深圳)的联合研究团队,近期取得了一项极具前瞻性的突破:他们成功训练人工智能自主“撰写”并精准理解
2026年3月,来自华盛顿大学、艾伦人工智能研究所和北卡罗来纳大学教堂山分校的研究团队,在图像智能矢量化领域取得了一项突破性进展。这项研究(论文编号:arXiv:2603 24575v1)开发了一个名为VFig的AI系统,它能够将静态的栅格图像智能地转换为可自由编辑的矢量图形,如同一位“图形考古学家





