谷歌Genie世界模型接入街景数据模拟真实街道
我们或许都曾有过这样的体验:在谷歌地图上打开街景功能,向亲友展示童年故居的样貌,或是将虚拟小人拖拽到巴黎街头,提前预览预订酒店周边的真实环境。如今,这项我们熟悉的数字探索工具,正迎来一次革命性升级——它将变得更具沉浸感和交互性,甚至允许用户调整天气,预览极端气候条件下的街道景象。

这正是谷歌最新整合项目的核心目标。近期,谷歌旗下DeepMind宣布,将其庞大的全球街景数据库接入“Project Genie”——一个能够生成多样化、可交互环境的通用世界模型。这一融合功能已在谷歌I/O开发者大会上正式亮相。
DeepMind开放性研究团队的科学家杰克·帕克-霍尔德在采访中阐述了其深远潜力:“这项技术的应用前景非常广阔,无论是用于训练AI智能体与机器人,还是供人类进行自由探索与规划,都展现出巨大价值。这也正是Genie项目一贯的核心使命。”
他举了一个具体案例:假设一台新机器人即将在阴雨连绵的伦敦投入使用。Genie可以预先模拟出阳光罕见地照射在维多利亚式建筑上的场景,让机器人在真实环境中遇到此类情况时,不至于因陌生而感到“困惑”。
对于普通用户而言,应用场景同样引人入胜:“例如,当你计划前往纽约旅行,却想预览非当前季节的街景。届时是否会下雪?你可以提前使用Genie,亲眼看看那条街道银装素裹的模样。”
支撑这一宏伟愿景的,是谷歌持续20年、覆盖全球的街景数据积累。通过街景采集车和人员背负的专用设备,谷歌已累计拍摄超过2800亿张高精度图像,足迹遍及全球110多个国家和地区,覆盖所有七大洲。
帕克-霍尔德强调:“街景为我们提供了海量真实世界地点的图像数据。将如此丰富的现实世界信息与强大的环境模拟能力相结合,其潜力是难以估量的。”
回顾发展历程,谷歌于去年8月发布了世界模型Genie 3的研究预览版,并于今年1月率先向美国的谷歌AI Ultra订阅用户开放访问,允许用户通过文本描述或上传图片来创建可交互的虚拟世界。该项目的长期愿景是服务于教育体验、游戏内容创作以及机器人仿真训练。
目前,Genie 3已在为Waymo的自动驾驶模拟器提供支持,帮助其车辆训练应对“遭遇龙卷风”或“路上偶遇大象”等极端罕见场景的能力。而接入街景数据后,这一能力有望助力Waymo更高效地将其自动驾驶业务拓展至全球更多城市。
Waymo虽然拥有自己的高性能模拟器,并依靠它成功将服务扩展至美国11座城市,但两者存在关键差异:Waymo的模拟视角通常锁定在车辆本身。而结合了街景数据的Genie,不仅能基于真实地理位置构建世界,还能将视角灵活切换至行人、骑行者或机器人等其他智能体,提供多维度的训练与测试环境。
据悉,谷歌已开始向部分美国地区的Ultra用户开放街景与Genie的集成功能测试,并计划在未来逐步扩大访问范围。全球其他地区的Ultra用户预计将在未来几周内陆续获得体验权限。
DeepMind产品经理迭戈·里瓦斯表示,团队的目标是让尽可能多的用户体验到这项创新功能。但他也坦诚指出,无论是街景集成还是Genie模型整体,目前仍处于实验阶段,在模拟的准确性与真实性方面仍有很长的路要走。
从谷歌团队展示的演示样本来看——包括对笔者曾居住街区进行的“水下世界”模拟——效果已相当令人印象深刻,场景还原度很高。但整体画风更接近制作精良的电子游戏场景,尚未达到照片级的逼真程度。此外,模型目前也缺乏对物理规律的深度感知,即无法理解因果关系。例如,在一段模拟雪中奔跑的场景中,人物角色直接穿过了仙人掌和灌木丛。
相比之下,谷歌的图像生成模型Nano Banana已能在信息图表中生成完美的文字,视频生成模型Veo也能理解纸船随波逐流、烟雾逐渐消散、布料覆盖物体等复杂的物理规律。
值得注意的是,这些物理规律并非通过硬编码规则植入模型,而是模型通过长期、被动地观察海量数据后逐渐“领悟”的,其过程类似于生命体通过观察来认知世界。
对于模型的现状与未来演进,帕克-霍尔德给出了一个时间预期:“就这类世界模型的发展阶段而言,我认为它在生成内容的准确性和视觉质量上,大约落后于当前顶尖的视频生成模型六到十二个月。但这无疑是我们最终必将攻克的技术挑战。”
谷歌地图总监乔纳森·赫伯特,一位12年前以实习生身份加入街景团队的“老兵”,也分享了他的见解。他认为,Genie目前还无法对一条街道进行完全精准的毫米级三维重建,但真正的技术突破在于AI所展现出的“空间连续性”能力。当用户环顾360度后,AI能够正确记忆并模拟用户身后的环境,并在此基础上持续构建出连贯的新场景。
“我们长期思考的核心问题,是如何在浩瀚的街景数据之上,构建出对现实世界最丰富、最精准的数字化模型,”赫伯特总结道,“将地图数据以这种创新的方式应用于前沿AI研究,正是我们长久以来所设想的方向。”
Q&A
Q1:谷歌Genie世界模型是什么,有哪些功能?
Genie是谷歌DeepMind开发的通用世界模型,能够生成多样化的交互式虚拟环境。用户可以通过输入文字提示或上传参考图片,来创建可探索、可交互的游戏化世界。目前,Genie 3已面向美国谷歌AI Ultra订阅用户开放,主要应用于沉浸式教育体验、游戏场景开发以及机器人仿真训练。最新进展是已成功接入谷歌街景数据,支持模拟真实街道场景及动态天气变化等效果。
Q2:街景数据接入Genie后,对Waymo自动驾驶训练有什么帮助?
Genie 3目前已在为Waymo的自动驾驶模拟器提供关键支持,专门用于训练车辆应对如龙卷风、道路上偶遇大象等极端罕见场景的能力。与Waymo原有的、视角固定的车辆模拟器相比,接入街景数据后的Genie不仅能基于全球真实地理位置构建高保真模拟世界,还能将训练视角从车辆灵活切换至行人、机器人等其他道路使用者,这有助于Waymo更高效、更安全地加速其全球城市拓展计划。
Q3:Genie的街景模拟目前有哪些局限性?
目前Genie的街景模拟在视觉效果上更接近精美的电子游戏画面,尚未达到照片级的真实渲染水平。模型也暂不具备完整的物理感知能力,无法准确模拟物体间的因果关系与交互,例如演示中人物可能直接穿过障碍物。此外,对街道进行完全精准的毫米级三维重建尚未实现。研究人员预估,该模型在生成内容的准确性和质量上,大约落后于当前最先进的视频生成模型六至十二个月的发展进程。
相关攻略
谷歌将海量街景数据接入其Genie世界模型,可生成基于真实地点的交互式模拟环境。该功能能模拟不同天气和视角,已用于Waymo自动驾驶的极端场景训练,并逐步向用户开放体验。目前模拟效果接近游戏画面,尚未实现照片级真实感和完整的物理规律理解,准确性仍有提升空间。
ASC26超算竞赛总决赛在无锡学院落幕,北京大学与清华大学分获冠亚军。赛事吸引全球300多支高校队伍,决赛需在功耗限制下搭建超算集群,完成基准测试与世界模型推理等前沿赛题。赛题紧密对接科研与产业热点,旨在培养跨学科复合型人才。
灵光App正式上线“体验世界模型”功能,首次将前沿技术引入手机。用户上传图片后,几秒内即可生成专属三维世界,并通过虚拟摇杆以第一人称视角沉浸式探索,实现从静态图像到动态交互空间的转化。
2025年3月10日,腾讯混元3D团队正式开源了业界首个专为世界模型设计的强化学习后训练框架——WorldCompass。该框架可视为此前发布的混元世界模型1 5的官方强化学习增强模块,其核心使命在于显著提升世界模型的指令遵循精度与长序列交互体验,推动智能体与虚拟环境的互动迈向新高度。 简而言之,W
世界模型Agora-1驱动多人FPS游戏,场景与角色均由AI实时生成,无需传统引擎。玩家可与AI竞技,但存在延迟与体验粗糙问题。该模型通过分离“仿真”与“渲染”实现状态同步,动态生成内容。开发公司Odyssey专注通用世界模型并获融资,演示虽不完善,却引发对虚拟与现实界限的思考。
热门专题
热门推荐
加密货币市场突遭重挫:深度解析与应对策略 近期加密货币市场重挫,比特币(BTC)一度跌超13%,以太坊(ETH)跌幅更是一度超过20%,投资者情绪高度紧张,市场波动剧烈。 主要币种跌幅概览 这轮下跌来得又快又猛,各主要币种的“受灾”情况可谓一目了然。具体来看: 比特币(BTC):作为市场风向标,短时
10月11日,加密货币市场经历剧烈波动,单日爆仓金额与人数双双突破历史纪录。市场行情极端变化导致大量杠杆交易者被强制平仓,凸显了加密货币投资的高风险特性。这一事件再次引发对市场波动性与风险管理的广泛关注。
过去24小时内,加密货币市场剧烈波动,导致全网大量交易者仓位被强制平仓。数据显示,爆仓人数高达162万,涉及金额巨大。市场普遍认为,此次暴跌与多重因素相关,包括宏观经济预期变化、监管政策不确定性以及部分大型投资者抛售行为。这一事件再次凸显了加密货币市场的高风险特性。
加密货币市场经历约160亿美元清算冲击后进入缓慢筑底阶段。高杠杆集中、价格波动加剧及恐慌情绪扩散引发连锁清算。比特币与以太坊反弹空间有限;瑞波币抗跌但波动加大;Solana受冲击明显。投资者应控制杠杆、分批建仓并关注市场动态。
加密货币市场剧烈波动,过去24小时内全网爆仓金额升至191亿美元,创下历史新高。市场多空博弈激烈,杠杆交易者大量被强制平仓,凸显了高杠杆交易在极端行情中面临的巨大风险。





