视觉推理如何推动物理世界AGI发展ElorianAI获5500万美元融资
说起AI大模型,大家可能都有个印象:它们在编程、解数学题这些“烧脑”事上,已经能轻松超越普通人。比如,Anthropic内部据说已接近完全用AI来编程;Google的Gemini Deep Think在2025年国际数学奥林匹克竞赛中,6道题做对了5道,达到了金牌水准。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
但有趣的是,一旦切换到视觉推理这个赛道,情况就大不一样了。即便是目前顶尖的Gemini 3 Pro,在测试基础视觉推理能力的BabyVision基准上,表现也只相当于一个3岁孩童的水平。
为什么会有这种“偏科”现象?根源在于当前主流模型的“思考方式”存在先天限制。现在的视觉语言模型,其工作流程本质上是“两步走”:先把视觉信息转换成文字描述,再基于这些文本进行推理。问题在于,很多视觉任务——比如空间关系、动态过程——根本无法用文字精确、完整地描述。这个“翻译”过程中的信息损耗,直接导致了模型视觉推理能力的瓶颈。
正是看到了这个根本性障碍,两位行业老兵决定联手破局。在Google DeepMind深耕14年的Andrew Dai,与苹果资深AI专家Yinfei Yang共同创立了Elorian AI。他们的目标很明确:将模型的视觉推理能力从“儿童级别”提升到“成年级别”,让AI学会在“视觉空间”里进行原生思考,从而向理解物理世界的通用人工智能(AGI)发起冲击。
这家雄心勃勃的初创公司,已获得由Striker Venture Partners、Menlo Ventures和Altimeter联合领投的5500万美元早期融资,49 Palms以及包括Jeff Dean在内的多位顶尖AI科学家也参与了投资。
多模态模型的先驱,想让视觉模型拥有推理能力
要理解Elorian AI想做什么,得先看看是谁在做。联合创始人Andrew Dai,剑桥计算机本科、爱丁堡机器学习博士,2012年加入谷歌,一待就是14年,直至创业。

图片来源:Andrew Dai的linkedin
他不仅是谷歌大模型演进的核心参与者,从PaLM到Gemini系列都有他的深度贡献,更是一位在学术上奠定过基础的研究者。他与Quoc V. Le合著的《Semi-supervised Sequence Learning》为GPT的诞生铺平了道路;另一篇关于混合专家模型(MoE)的论文《Glam: Efficient scaling of language models with mixture-of-experts》,则为如今主流的高效大模型架构扫清了障碍。2023年,在Jeff Dean的安排下,他开始领导Gemini的数据板块,团队规模达数百人,专注于包括合成数据在内的核心数据工作。

图片来源:Google
另一位联合创始人Yinfei Yang,则在多模态领域有着深厚积累。他曾在Google Research工作四年,专注于多模态表示学习,之后加入苹果负责多模态模型研发。他参与的研究《Scaling up visual and vision-language representation learning with noisy text supervision》对推动多模态学习发展起到了关键作用。

图片来源:Yinfei Yang的linkedin

图片来源:arxiv
团队还包括曾担任哈佛大学助理教授的Seth Neel,一位数据和AI领域的专家。如此阵容,意味着他们瞄准的不是简单的工程优化,而是底层架构的范式革新——让AI的智能理解从以文本为基,升级到以视觉为基。
现状是,即便最先进的多模态大模型,在面对基础的视觉对齐任务时也常常力不从心。比如,如何将一个零件精准地安装到一套机械装置中?这种涉及空间和物理关系的任务,对人类孩童来说可能都很直观,但对现有模型却异常困难。
生物学或许能给我们启示。在人类大脑中,视觉是支撑众多高级思维过程的底层基质。人类利用视觉和空间进行推理的历史,远比使用语言逻辑悠久得多。教别人走迷宫,用语言描述往往令人困惑,画张草图却一目了然。甚至候鸟也能凭借视觉识别地理特征,完成跨越大陆的迁徙。这强烈暗示,视觉才是机器实现高级推理能力更本质的路径。
那么,如果从一开始构建模型时,就将这种生物本能“编码”进去,打造一个能原生“理解”并“处理”文本、图像、视频和音频的模型,结果会怎样?Andrew Dai的团队正是想构建这样一个天生的“通感者”,让机器不仅“看到”像素,更能“看懂”世界背后的结构、关系和物理法则。在他们看来,深刻认知真实的物理世界,是实现下一代机器智能飞跃、最终触及“视觉通用人工智能”的关键钥匙。
推理后置的VLM不是通向视觉推理的正确路径
此前并非没有团队尝试突破。Andrew Dai所在的Gemini团队本身就是多模态领域的领跑者。但传统路径多以视觉语言模型(VLM)为主,其核心是“先转译,后推理”的两步法:先将图像转化为文本描述,再交由语言模型进行推理。
这种“推理后置”的模式存在天然局限。一方面,它容易产生“幻觉”,因为文本描述可能已丢失或扭曲关键视觉信息;另一方面,许多视觉概念和空间关系本就“只可意会,难以言传”,强行用文字表述本身就是个悖论。
即便是NanoBanana这类出色的视觉生成模型,其卓越的生成能力也并不等同于推理能力。它们在生成前的“构思”,本质上仍然依赖语言模型,并非原生的视觉推理。
要开发出能真正洞察视觉世界中复杂空间、结构和关系的模型,必须在底层进行碘伏性创新。Elorian AI的思路是:将多模态训练与专为多模态推理设计的新架构深度融合。他们摒弃了将图像视为静态输入的传统做法,转而训练模型去直接交互并操作视觉表征,让模型自主解析其中的结构、关系与物理约束。
当然,另一个决定性因素是数据。Andrew Dai强调,他们极其重视数据的质量、混合比例、来源及多样性,并在数据层面进行了革新——在视觉空间中重构推理链路,并大规模、深度地使用合成数据。
综合这些努力,目标是为了催生能够跨越简单“感知”、迈向高阶“推理”的全新AI系统。这个系统可以是一个视觉推理基础模型:高度通用,但在视觉推理这一特定能力集上表现卓越。
既然是通用基础模型,其应用前景自然广泛。在机器人领域,它可以作为底层“神经中枢”,赋予机器人在陌生环境中自主作业和瞬间决策的能力。例如,派机器人处理危险环境下的安全故障,它需要能推理出“在操作面板前,应先拉下某个安全拉杆”。
在灾害管理领域,此类模型可通过分析卫星图像监测和预防森林火灾;在工程领域,它能精准解读复杂的视觉图纸和系统原理图。这种能力的意义在于,物理世界的运行法则与纯代码世界截然不同,设计飞机机翼不能只靠敲代码。
当然,目前Elorian AI的模型和能力仍停留在蓝图阶段。他们计划在2026年发布一款在视觉推理领域达到业界领先水平(SOTA)的模型,届时,一切宣称都将接受现实的检验。
当AI真的具备“视觉推理”能力,它将怎么改变物理世界?
为了让AI理解和影响物理世界,技术已经历数次迭代:从传统计算机视觉时代的图像识别,到生成式AI的图像生成与多模态模型,再到试图模拟环境动态的世界模型。每一次迭代,都在加深对物理世界的理解。
而视觉推理基础模型,有望将这种理解推向更深层次。具备深度视觉推理能力,意味着AI能更本质地理解物理世界的运作机制,从而实现更高层级的机器智能。
可以想象,当具备深度理解和精细操作能力的模型,为具身智能和AI硬件行业“注入灵魂”,其应用范围将极大拓展。机器人可以从事对可靠性要求极高的精密工业生产或医疗护理;AI可穿戴设备则能进化成更聪明、更懂你的个人助理。
不过,所有这些技术的底层基石,仍然是数据。正如前文Andrew Dai所指出的,数据的质量、配比、来源和多样性,最终决定着模型的性能上限。
值得注意的是,在物理AI这个赛道,中国企业无论是在模型还是数据层面,相比文本大模型时期,都更接近世界前沿。如果能凭借在数据和应用场景方面的丰富优势,加快迭代速度,那么在具身智能、AI硬件等领域,无论是应用于工业、医疗还是家庭,都有更大的机会达到领先水平,并孕育出世界级的企业。
相关攻略
2026年北京国际汽车展览会,成为汽车智能化演进的关键里程碑。在这一行业盛会上,火山引擎正式发布了其面向下一代智能汽车的全栈AI解决方案。该方案的核心突破在于,率先将前沿的Agentic AI(智能体AI)架构引入汽车领域,并深度整合了AI智能座舱套件与豆包座舱助手。这标志着车载交互体验正经历一场根
想要在Recraft AI中生成更具视觉冲击力与文化符号感的图像,关键在于充分激发波普艺术(Pop Art)的风格精髓。如果感觉效果不足,以下五种方法能帮助你精准调校,轻松创作出标志性的波普风格作品。 一、使用内置波普风格模型直接生成 最便捷的方式是直接调用Recraft AI内置的专用模型。平台已
想要通过Recraft AI快速创作一套风格统一、现代感十足的扁平化矢量插画,却总觉得提示词效果不佳,生成的图像要么带有不想要的渐变,要么轮廓不够清晰锐利?别担心,这通常不是工具本身的问题,而是几个核心设置尚未调整到位。遵循以下这套详细的操作流程,你将能精准锁定纯粹的扁平风格,让AI的输出结果高度符
德国IU国际应用科学大学的最新研究,为我们揭晓了提升AI情感理解能力的关键:如何通过优化提问方式,让大语言模型真正“读懂人心”。这项发表于2025年1月的研究(论文编号:arXiv:2601 08302v1)系统性地探索了“提示工程”这一核心方法,旨在解决AI在情感分析任务中面临的沟通困境。 想象一
这篇由中国人民大学与美团联合团队完成的研究,为大语言模型的工具调用能力训练,开辟了一条极具创新性的技术路径。论文编号arXiv:2601 10355v1,发表于2026年1月,为AI工具学习领域提供了重要参考。 我们是如何掌握一项新技能的?无论是参照食谱学习烹饪,还是查阅说明书组装家具,亦或是搜索“
热门专题
热门推荐
先别慌,也别急。今年以来的空调市场,竞争确实激烈,走势也充满动荡与不确定性,内卷成了常态。但对于一部分空调企业而言,眼下的煎熬不会持续太久,好日子其实已经不远了。 最近,不止一位空调企业的营销负责人坦言:“现在一线市场上,我们根本顾不上核算成本。只要有订单、能出货,就想尽一切办法去抢。”进入2026
在《星神纪元》的宏大世界中,角色的成长路径充满了策略与选择。转职,作为游戏进程中的关键转折点,不仅是角色实力的质变,更是玩法深度与战斗体验的全面升级。精准掌握转职的奥秘,将彻底改变你的冒险旅程,开启专属的强者之路。 星神纪元角色转职攻略:条件、流程与核心技巧 当角色等级满足特定要求后,转职系统便会解
在热门战术射击游戏《三角洲行动》中,“S8不归之人”任务以其高难度和丰厚回报成为玩家们关注的焦点。想要高效通关并获取全部奖励,掌握一套系统性的攻略思路至关重要。本文将为你全方位解析该任务的通关技巧与核心策略。 三角洲行动S8不归之人任务通关全攻略 “S8不归之人”任务拥有独特的机制与高强度对抗。开局
炉石传说团队协作:梦幻协作成就攻略 “团队协作:梦幻协作”这个成就,目标很明确:用150张“团队协作”牌召唤出的白银之手新兵。但实际操作起来,你会发现它是个不折不扣的“马拉松”式累积成就,难度不小。 为什么说它难?即便你手握“虚灵任务”体系,进度依然缓慢。核心矛盾在于,你不仅需要场上有足够的格子来容
对于刚接触加密货币交易的新手而言,理解平台内不同资金路径是首要任务。本文以OKX为例,清晰区分了“买币”与“提币”的本质区别,并详细解释了“资金划转”与“链上充值”两个核心入口的功能与使用场景。掌握这些基础操作逻辑,能有效避免误操作,确保资产流转安全顺畅,是迈出Web3世界的第一步。





