首页 游戏 软件 资讯 排行榜 专题
首页
AI
约翰斯霍普金斯大学AI系统用照片探索世界

约翰斯霍普金斯大学AI系统用照片探索世界

热心网友
13
转载
2026-05-14

这项由约翰斯·霍普金斯大学计算机视觉实验室主导的前沿研究,已于2025年1月正式发布于权威预印本平台arXiv(论文ID:arXiv:2412.09624v4)。由11位研究人员组成的团队,成功开发出名为GenEx的突破性技术,实现了从单张2D照片生成完整、可交互3D虚拟世界的创举,并允许AI智能体在其中自主探索与互动。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

约翰斯·霍普金斯大学重磅推出:用一张照片就能打造探索无限世界的AI系统

试想一下,您随手拍摄的一张普通照片,其背后可能隐藏着构建整个虚拟空间的密码。这听起来如同科幻,但约翰斯·霍普金斯大学的科学家们正将其变为现实。他们研发的GenEx系统,犹如一位具备超凡空间推理能力的建筑师,仅凭一张静态图像,就能“推断”并构建出完整的360度全景环境。更重要的是,这个世界是动态且可交互的,AI角色能够真实地行走、观察并与环境进行互动。

传统3D环境创建过程繁琐,如同手工搭建模型,耗时耗力。GenEx的出现彻底颠覆了这一模式。它就像一位高效的空间解算器,只需“解析”您提供的照片,就能在极短时间内推理出视野之外的场景细节,并将其转化为一个可供探索的三维空间。

灵感源于人类的空间认知能力

这项研究的出发点,基于一个关键洞察:人类拥有卓越的空间想象与补全能力。当您步入一间陌生的房间,即使只看到局部,大脑也能自动构建出房间的整体布局、家具摆放等不可见部分。这种基于片段信息形成完整空间理解的能力,是人类进行导航与规划的基础。

GenEx正是借鉴了这一原理。其核心技术流程可分为两个阶段:世界初始化和世界转换。

在世界初始化阶段,系统会深度解析输入照片中的视觉线索——包括建筑结构、地面材质、光照条件等,并结合其对现实世界物理规律的海量先验知识,生成一个初始的球面全景图。这类似于根据一张局部地图,绘制出整个区域的全貌。

随后的世界转换阶段则实现了动态沉浸感。当AI智能体在虚拟世界中移动或改变视角时,系统会像高级图形引擎一样,实时渲染出从新位置观察到的连贯场景。这确保了探索过程的视觉流畅性与空间一致性,仿佛使用者置身于一个无限延伸的球形空间内部。

如何确保生成世界的合理性与真实性?

一个核心挑战是:如何保证AI“生成”的世界符合物理逻辑,而非随意拼凑的幻象?研究团队采用了一项巧妙的训练策略:他们并未让AI完全自由生成,而是使用了由虚幻引擎5(Unreal Engine 5)和Unity等专业工具创建的高保真、符合物理规律的合成场景数据进行训练。

这好比让画家通过系统学习经典作品来掌握透视、光影与构图法则,再进行创作。通过这种方式,GenEx内化了物体该如何合理存在、光影如何自然投射、空间如何正确衔接的规则。

在技术实现上,系统采用全景图像作为核心数据表示,如同位于一个透明球体的中心,可以环顾四周。具体而言,它熟练运用立方体贴图、等距圆柱投影和球面投影三种格式,并能实现它们之间的高效转换。

赋予AI“前瞻性思维”与“情景预演”能力

GenEx的另一个重大突破,在于它为AI智能体设计了三种探索模式,并引入了一种革命性的“想象增强决策”机制。

三种模式适应不同场景:直接操控的互动探索模式,给予用户完全控制权;由AI助手(如GPT)规划路径的自由探索模式,能有效避免走入死胡同;以及针对“前往红色大门”等具体任务的目标导向导航模式,AI会自动计算最优路线。

真正的创新在于其决策机制。传统AI决策如同“摸着石头过河”,仅依赖当前时刻的感知信息。GenEx则赋予了AI“心理模拟”或“前瞻”能力。例如,面对岔路口时,AI会在内部分别模拟向左和向右行走可能遇到的场景与结果,从而做出更优选择。

这种能力在多智能体协同场景中价值巨大。每个AI不仅需规划自身行动,还需预测其他智能体的可能行为,正如现实中的司机需要预判周围车辆动向。GenEx使AI能够进行“换位思考”,通过想象站在其他智能体的视角会观察到什么,从而做出更协调、更具协作性的决策。

严谨测试与卓越性能

为验证系统的可靠性,团队设计了严密的评估实验。其中一项名为“想象探索循环一致性”的测试,让AI从起点出发,经过一段复杂路径探索后返回原点,然后检验终点场景与起点是否保持一致。结果显示,即使经过长达20米的移动和多次转向,系统生成的世界依然保持了极高的空间连贯性与逻辑一致性。

在实际决策任务中的表现更为突出。配备了GenEx“想象”能力的AI智能体,决策准确率高达85.22%。作为对比,仅依赖文本描述的AI准确率为27.71%,仅能处理单张图像的AI为46.10%。这充分证明了空间想象与推理能力对于智能决策的极端重要性。

一个有趣的发现是:在某些测试中,能同时处理文本和图像的多模态AI,其表现反而逊于仅处理文本的单模态AI。这类似于“一叶障目”,当AI看到局部图像却误以为掌握了全局时,更容易产生误判。这一现象恰恰反向印证了,像GenEx这样能够构建完整、一致空间认知模型的能力,才是实现稳健、可靠人工智能的关键基石。

在多智能体协作任务的测试中,GenEx的优势进一步凸显,准确率达到惊人的94.87%,而传统方法的准确率仅为21.88%。

深远意义、现存挑战与未来展望

从技术发展脉络看,GenEx标志着生成式AI向具备自主性的智能体迈出了关键一步。以往的AI多在预设环境中被动响应,而GenEx赋予了AI主动探索、情景预演和基于想象的规划能力,使其认知模式更贴近人类。

当然,挑战依然存在。核心问题在于如何将在虚拟世界中训练出的能力,有效迁移到复杂、非结构化的真实世界。当前系统主要基于游戏引擎的合成数据训练,类似于在模拟器中学习驾驶,真正上路还需应对无数未知变量。研究团队指出,模拟到现实的迁移、真实传感器数据的融合、动态开放环境的处理等都是未来需要攻克的核心难题。

尽管如此,GenEx的潜力已清晰展现。它不仅将深刻变革游戏开发、影视制作、虚拟现实等数字内容产业,更将为机器人自主导航、自动驾驶系统、智能空间管理等前沿领域提供强大的基础能力。或许在不久的将来,您的家庭机器人只需用视觉传感器扫描房间,就能理解整体布局,帮您找到物品或规划清洁路径。

归根结底,这项技术的最大价值在于它开启了一个新的范式——让机器初步具备了类似人类的、基于有限信息进行空间推理与想象的能力雏形。这不仅是人工智能技术的进步,更是迈向更自然、更高效人机协作关系的一次深刻演进。

Q&A

Q1:GenEx系统是如何从一张照片生成完整的3D世界的?

A:该过程主要分为两个核心步骤。首先是“世界初始化”:系统深度分析输入照片的视觉内容(如物体类别、空间布局、纹理信息),并调用其学习到的世界知识库,推理并生成一个初始的360度全景环境。接着是“世界转换”:当AI在虚拟世界中移动时,系统会依据智能体的新位置,实时生成与之对应的新视角场景,确保整个探索旅程的视觉无缝衔接与空间逻辑连贯,如同在一个无限延伸的球体内自由行走。

Q2:GenEx的想象增强决策功能有什么特别之处?

A:这项功能的核心是赋予了AI“内部模拟”或“前瞻性思考”的能力。在做出实际决策前,AI可以在其内部模型中预先模拟执行不同行动方案可能导致的未来状态与结果,从而对比并选择预期收益最高的路径。在多智能体环境中,这种能力进一步表现为“心智理论”的雏形,即AI能够推测其他智能体的潜在目标与行动,以此实现更高效的协作或竞争策略。

Q3:GenEx生成的虚拟世界质量如何保证?

A:生成世界的质量与合理性通过双重机制保障:一是高质量的训练数据,系统使用由虚幻引擎5等专业工具生成的、严格遵循物理规律的高保真合成场景进行学习,确保了生成内容的基本合理性;二是 rigorous 的评估体系,例如“循环一致性”测试,验证了系统在长距离、多转向的探索后,生成的世界依然能保持严密的几何与逻辑一致性,证明了其输出的稳定与可靠。

来源:https://www.techwalker.com/2026/0311/3180763.shtml
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

约翰斯霍普金斯大学AI系统用照片探索世界
AI
约翰斯霍普金斯大学AI系统用照片探索世界

这项由约翰斯·霍普金斯大学计算机视觉实验室主导的前沿研究,已于2025年1月正式发布于权威预印本平台arXiv(论文ID:arXiv:2412 09624v4)。由11位研究人员组成的团队,成功开发出名为GenEx的突破性技术,实现了从单张2D照片生成完整、可交互3D虚拟世界的创举,并允许AI智能体

热心网友
05.14
Meta AI系统预测论文影响力并自动优化审稿文本
AI
Meta AI系统预测论文影响力并自动优化审稿文本

2026年3月4日,一项发布于arXiv预印本平台的研究(论文ID:arXiv:2603 03142v1)引发了广泛关注。这项由Meta超级智能实验室与爱丁堡大学联合进行的研究,正式推出了名为APRES的AI系统。该系统不仅能评估学术论文的质量,更能主动优化文本表达,旨在提升研究成果的清晰度与学术影

热心网友
05.13
哈工大深圳团队实现AI系统自我纠错技术突破
AI
哈工大深圳团队实现AI系统自我纠错技术突破

当我们在工作中犯错时,通常需要同事或上司指出问题所在,才能及时改正。但如果是人工智能系统出错了呢?最近,一项由哈尔滨工业大学深圳校区领导的研究取得了引人注目的进展——团队开发出了一种能让AI系统实现“自我纠错”的创新方法。这项研究发表于2026年2月,论文编号为arXiv:2602 23258v1,

热心网友
05.13
“流行羽”发布翎析AI系统,推动专业运动评估进入寻常球馆
AI
“流行羽”发布翎析AI系统,推动专业运动评估进入寻常球馆

智汇视听,无界体育:SMT模式如何重塑运动未来? 4月15日,第十三届中国网络视听大会在成都拉开帷幕。同一天,一场聚焦于体育产业未来的论坛——“智汇视听·无界体育 SMT数字运动新生态论坛暨流行羽AI战略发布会”成功举办。这场活动堪称一次跨界思想的碰撞,国际奥委会、国家广电总局、中国羽毛球协会等机构

热心网友
04.20
英伟达AI系统Vera Rubin详解:每瓦性能提升10倍的革新架构
科技数码
英伟达AI系统Vera Rubin详解:每瓦性能提升10倍的革新架构

财联社2月26日讯(编辑 史正丞)就在全球瞩目的财报公开前夕,英伟达又秀了一把肌肉:把下一代Vera Rubin算力系统打开,讲解即将带来“10倍算力”浪潮的新硬件有哪些看头。在最新媒体采访中,英伟

热心网友
03.02

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

深度学习与生成式AI为人工智能工程师带来新机遇
AI
深度学习与生成式AI为人工智能工程师带来新机遇

短期课程 开发人员的ChatGPT提示工程 你将在本课程中学到什么 想用大型语言模型(LLM)快速构建强大的应用吗?《开发人员的ChatGPT提示工程》这门课,正是为你准备的。通过OpenAI API,你将能解锁那些在过去成本高昂、技术门槛高甚至无法实现的能力,快速将创新想法转化为价值。 这门短期课

热心网友
05.14
AI绘画工具志设:在线生成图片的智能平台
AI
AI绘画工具志设:在线生成图片的智能平台

志设是什么 在创意设计领域,灵感与效率往往难以平衡。是否存在一个工具,既能深度理解您的创意构思,又能迅速将其转化为高品质视觉作品?这正是专业级AI图像生成平台“志设”致力于解决的核心问题。 简而言之,志设是一个融合了前沿人工智能技术的综合性设计解决方案平台。它全面覆盖从平面广告、海报设计到网页UI、

热心网友
05.14
AI口语练习软件TalkMe帮你克服社交恐惧
AI
AI口语练习软件TalkMe帮你克服社交恐惧

对于渴望提升外语口语与听力水平的学习者而言,如何找到一个高效、便捷且能轻松练习的环境,常常是首要难题。今天我们要深入解析的这款产品——TalkMe,正是精准切入这一需求,试图通过前沿的AI技术,提供一种全新的语言练习解决方案。 简而言之,TalkMe是一款专注于跨语言学习的AI应用,其核心功能设计紧

热心网友
05.14
王牌机甲现代战争手游上班挂机下班称霸全攻略
游戏资讯
王牌机甲现代战争手游上班挂机下班称霸全攻略

当冰冷的钢铁巨兽被注入炽热的战斗意志,会碰撞出怎样的战略火花?《王牌机甲》这款游戏,将宏大的科幻叙事深度融入现代战争战术框架,为玩家开启了一段关于征服、策略与深厚羁绊的未来纪元。 在这里,你绝非孤军奋战。每一位通过招募加入的精英机师,都拥有独立的背景故事、专属技能树与独特的成长路线。游戏核心的“羁绊

热心网友
05.14
暗黑大天使技能分支系统解析 从基础技能树到高阶分支指南
游戏资讯
暗黑大天使技能分支系统解析 从基础技能树到高阶分支指南

《暗黑大天使》的技能分支系统提供元素、物理和辅助三大专精方向,玩家需根据角色属性与战斗需求选择分支。技能可投入资源升级并可能触发连锁效果,实战中需结合装备、敌人及团队配合灵活运用。该系统丰富了玩法,但需大量资源与多系统联动,选择需谨慎规划。

热心网友
05.14