谷歌Genie世界模型接入街景数据模拟真实街道

首页

AI资讯

热心网友

转载

2026-05-21

我们或许都曾有过这样的体验：在谷歌地图上打开街景功能，向亲友展示童年故居的样貌，或是将虚拟小人拖拽到巴黎街头，提前预览预订酒店周边的真实环境。如今，这项我们熟悉的数字探索工具，正迎来一次革命性升级——它将变得更具沉浸感和交互性，甚至允许用户调整天气，预览极端气候条件下的街道景象。

谷歌将街景数据接入Genie世界模型，可模拟真实街道场景

这正是谷歌最新整合项目的核心目标。近期，谷歌旗下DeepMind宣布，将其庞大的全球街景数据库接入“Project Genie”——一个能够生成多样化、可交互环境的通用世界模型。这一融合功能已在谷歌I/O开发者大会上正式亮相。

DeepMind开放性研究团队的科学家杰克·帕克-霍尔德在采访中阐述了其深远潜力：“这项技术的应用前景非常广阔，无论是用于训练AI智能体与机器人，还是供人类进行自由探索与规划，都展现出巨大价值。这也正是Genie项目一贯的核心使命。”

他举了一个具体案例：假设一台新机器人即将在阴雨连绵的伦敦投入使用。Genie可以预先模拟出阳光罕见地照射在维多利亚式建筑上的场景，让机器人在真实环境中遇到此类情况时，不至于因陌生而感到“困惑”。

对于普通用户而言，应用场景同样引人入胜：“例如，当你计划前往纽约旅行，却想预览非当前季节的街景。届时是否会下雪？你可以提前使用Genie，亲眼看看那条街道银装素裹的模样。”

支撑这一宏伟愿景的，是谷歌持续20年、覆盖全球的街景数据积累。通过街景采集车和人员背负的专用设备，谷歌已累计拍摄超过2800亿张高精度图像，足迹遍及全球110多个国家和地区，覆盖所有七大洲。

帕克-霍尔德强调：“街景为我们提供了海量真实世界地点的图像数据。将如此丰富的现实世界信息与强大的环境模拟能力相结合，其潜力是难以估量的。”

回顾发展历程，谷歌于去年8月发布了世界模型Genie 3的研究预览版，并于今年1月率先向美国的谷歌AI Ultra订阅用户开放访问，允许用户通过文本描述或上传图片来创建可交互的虚拟世界。该项目的长期愿景是服务于教育体验、游戏内容创作以及机器人仿真训练。

目前，Genie 3已在为Waymo的自动驾驶模拟器提供支持，帮助其车辆训练应对“遭遇龙卷风”或“路上偶遇大象”等极端罕见场景的能力。而接入街景数据后，这一能力有望助力Waymo更高效地将其自动驾驶业务拓展至全球更多城市。

Waymo虽然拥有自己的高性能模拟器，并依靠它成功将服务扩展至美国11座城市，但两者存在关键差异：Waymo的模拟视角通常锁定在车辆本身。而结合了街景数据的Genie，不仅能基于真实地理位置构建世界，还能将视角灵活切换至行人、骑行者或机器人等其他智能体，提供多维度的训练与测试环境。

据悉，谷歌已开始向部分美国地区的Ultra用户开放街景与Genie的集成功能测试，并计划在未来逐步扩大访问范围。全球其他地区的Ultra用户预计将在未来几周内陆续获得体验权限。

DeepMind产品经理迭戈·里瓦斯表示，团队的目标是让尽可能多的用户体验到这项创新功能。但他也坦诚指出，无论是街景集成还是Genie模型整体，目前仍处于实验阶段，在模拟的准确性与真实性方面仍有很长的路要走。

从谷歌团队展示的演示样本来看——包括对笔者曾居住街区进行的“水下世界”模拟——效果已相当令人印象深刻，场景还原度很高。但整体画风更接近制作精良的电子游戏场景，尚未达到照片级的逼真程度。此外，模型目前也缺乏对物理规律的深度感知，即无法理解因果关系。例如，在一段模拟雪中奔跑的场景中，人物角色直接穿过了仙人掌和灌木丛。

相比之下，谷歌的图像生成模型Nano Banana已能在信息图表中生成完美的文字，视频生成模型Veo也能理解纸船随波逐流、烟雾逐渐消散、布料覆盖物体等复杂的物理规律。

值得注意的是，这些物理规律并非通过硬编码规则植入模型，而是模型通过长期、被动地观察海量数据后逐渐“领悟”的，其过程类似于生命体通过观察来认知世界。

对于模型的现状与未来演进，帕克-霍尔德给出了一个时间预期：“就这类世界模型的发展阶段而言，我认为它在生成内容的准确性和视觉质量上，大约落后于当前顶尖的视频生成模型六到十二个月。但这无疑是我们最终必将攻克的技术挑战。”

谷歌地图总监乔纳森·赫伯特，一位12年前以实习生身份加入街景团队的“老兵”，也分享了他的见解。他认为，Genie目前还无法对一条街道进行完全精准的毫米级三维重建，但真正的技术突破在于AI所展现出的“空间连续性”能力。当用户环顾360度后，AI能够正确记忆并模拟用户身后的环境，并在此基础上持续构建出连贯的新场景。

“我们长期思考的核心问题，是如何在浩瀚的街景数据之上，构建出对现实世界最丰富、最精准的数字化模型，”赫伯特总结道，“将地图数据以这种创新的方式应用于前沿AI研究，正是我们长久以来所设想的方向。”

Q&A

Q1：谷歌Genie世界模型是什么，有哪些功能？

Genie是谷歌DeepMind开发的通用世界模型，能够生成多样化的交互式虚拟环境。用户可以通过输入文字提示或上传参考图片，来创建可探索、可交互的游戏化世界。目前，Genie 3已面向美国谷歌AI Ultra订阅用户开放，主要应用于沉浸式教育体验、游戏场景开发以及机器人仿真训练。最新进展是已成功接入谷歌街景数据，支持模拟真实街道场景及动态天气变化等效果。

Q2：街景数据接入Genie后，对Waymo自动驾驶训练有什么帮助？

Genie 3目前已在为Waymo的自动驾驶模拟器提供关键支持，专门用于训练车辆应对如龙卷风、道路上偶遇大象等极端罕见场景的能力。与Waymo原有的、视角固定的车辆模拟器相比，接入街景数据后的Genie不仅能基于全球真实地理位置构建高保真模拟世界，还能将训练视角从车辆灵活切换至行人、机器人等其他道路使用者，这有助于Waymo更高效、更安全地加速其全球城市拓展计划。

Q3：Genie的街景模拟目前有哪些局限性？

目前Genie的街景模拟在视觉效果上更接近精美的电子游戏画面，尚未达到照片级的真实渲染水平。模型也暂不具备完整的物理感知能力，无法准确模拟物体间的因果关系与交互，例如演示中人物可能直接穿过障碍物。此外，对街道进行完全精准的毫米级三维重建尚未实现。研究人员预估，该模型在生成内容的准确性和质量上，大约落后于当前最先进的视频生成模型六至十二个月的发展进程。

来源:https://ai.zhiding.cn/2026/0521/3187743.shtml

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：南方科创人工智能ETF跌3.38% 成交额5366万元下一篇：OpenAI破解数学界80年核心猜想菲尔兹奖得主深度解析