上海 AI+Lab 实现突破:浏览器中 2ms 渲染 600 万 3D 高斯点
打开浏览器就能直接走进一个逼真的 3D 世界,还能像玩游戏一样自由旋转角度,更能看清每一个物体的细节,甚至还能看到会动的虚拟人向你招手。
这上海交通大学人工智能学院钟志航副教授和上海人工智能实验室等合作者打造的一个名为 Visionary 的平台,能让复杂的 3D 场景在浏览器里流畅运行,不需要下载任何软件,也不需要高性能显卡,点击链接就能看。

图 | 钟志航(来源:受访者)
以前要想看一个高质量的 3D 模型,要么得下载几个 G 的安装包,要么得忍受卡顿和模糊的画质。现在,研究人员将一个名为 3D 高斯溅射的技术搬到浏览器里,而且跑得比很多本地软件还快。
什么是 3D 高斯溅射?它好比一个超级智能的点彩画技术。传统 3D 模型要使用大量三角形网格拼出物体,计算量巨大。而高斯溅射使用成千上万个带有颜色和透明度的小点来代替场景,这些点像雾气一样悬浮在空间中,从不同角度看过去它们会组合成为完整的画面。这项技术因为效果好、速度快,正在成为一些世界模型创业公司的核心工具。

(来源:https://visionary-laboratory.github.io/visionary/)
但是问题来了,这么牛的技术普通人怎么用?以前的方法要么依赖笨重的本地软件,装起来非常费劲;要么在网页上跑,但使用的是老旧的 WebGL 技术,只能看静态画面,稍微动一下就卡顿,更别提那些会动的、会变化的场景了。

(来源:https://arxiv.org/pdf/2512.04597)
Visionary 的突破在于,它把整套技术栈搬到了 WebGPU 上。WebGPU 是新一代浏览器图形标准,能让网页直接调用显卡干活。Visionary 还做了一个很聪明的设计,他们把各种复杂的 3D 算法统一打包成为 ONNX 格式。
ONNX 就像一个通用语言,不管是用 PyTorch 还是用 TensorFlow 训练的模型,都成转成为这个格式,然后在浏览器里直接运行。这就意味着,你不需要懂底层代码,就能把最新的 3D 技术插进 Visionary 里用。
具体有多快?研究团队拿一个包含 600 万个高斯点的经典场景做了测试。现有的李飞飞 WorldLbas 团队推出的网页查看器 SparkJS 处理一帧需要 176 毫秒,而 Visionary 只需要 2 毫米,快乐将近 100 倍。而且画质一点都没有打折,反而因为算法优化变得更加细腻。

(来源:https://arxiv.org/pdf/2512.04597)
同时,Visionary 不只会处理静态场景。它支持会动的 4D 场景,支持可驱动的虚拟人,甚至支持在渲染完成后加滤镜和做风格迁移。比如你导入一个虚拟人模型,输入几个动作参数,它就能在浏览器里实时跳舞。这些动态效果以前只能在专业的动画软件里看到,现在点开网页就行。
研究团队使用几个案例展示了 Visionary 的能力。他们把 Scaffold GS 这种基于神经网络的 3D 模型跑进了浏览器,每帧只需要 9 到 16 毫秒生成画面。
他们把 4D 高斯溅射也搬了过来,处理动态场景时每帧只要不到 8 毫秒。对于虚拟人动画,即使是同时驱动 10 个虚拟人,也能保持在 55 毫秒左右,基本达到实时交互的标准。

(来源:https://arxiv.org/pdf/2512.04597)
这意味着未来的 3D/4D 内容将触手可及,不再受限于设备性能。设计师想展示一个视频,发给客户一个网址客户就能沉浸式体验;至于游戏 开发者他们甚至可以在浏览器里跑起来轻量级的 3D 游戏。
Visionary 已经在 GitHub 上开源了,任何人都能访问。他们还做了一个在线编辑器,你可以在里面同时加载多个 3D 模型,和传统网络模型混合渲染,实时调整视角。
钟志航告诉 DeepTech:“这项技术已经有了实际应用。在上海人工智能实验室的 2025 世界人工智能大会成果中,有一个叫书生翼飞的项目,就是基于 Visionary 把上海一大块区域的环境重建出来放在网页端,用户输入想要的飞机型号,系统就能实时生成对应的飞机,在上海上空模拟飞行。
在数字孪生领域,工厂或供应链需要把各个环节数字化,有了这项技术,整个孪生体系会变得非常逼真,方便人交互,也方便智能体在接近真实环境的空间里学习操作。”

(来源:https://arxiv.org/pdf/2512.04597)
当然,这项技术还在进化中。研究团队在论文里也提到,WebGPU 和 ONNX Runtime 还在发展,不同浏览器可能存在兼容差异。浏览器安全策略也对内存有约束,太大规模的场景和神经网络目前还跑不了。但是方向已然非常清晰:那就是未来的 3D 世界不再遥远,就存在于可能你此刻正在使用的浏览器。
钟志航表示,Visionary 还打包成了一个 three.js 的库,这意味着做游戏、做网页端开发都可以直接使用,共享整个 three.js 的生态系统。
后续团队计划在物理交互上发力,比如在游戏场景中加入力的反馈,弓箭射中墙面得有反应。同时也在构建空间智能体的评测基准,因为这套体系能把神经网络嵌到网页端做推理,甚至可以让体量不太大的多模态模型直接在网页上跑,一边做逼真的对话,一边执行空间任务。
钟志航的 Visionary 团队在招聘熟悉神经渲染和图形学的工程师和实习生,以及欢迎申请其在上海交通大学空间多媒体实验室的硕士博士以及 RA。详情请联系邮箱 zzh.tech@gmail.com
参考资料:
相关论文:https://arxiv.org/pdf/2512.04597
相关开源代码:https://github.com/Visionary-Laboratory/visionary
运营/排版:何晨龙
相关攻略
近日,开源具身智能原生框架Dexbotic宣布正式支持以RLinf作为其分布式强化学习后端。对具身智能开发者而言,这不仅是一次普通的工程适配,更意味着VLA模型研发中长期存在的「SFT与RL割裂」问题,正在被真正打通。 这是一种典型的「乐高式协作」:双方不强行Fork、不粗暴揉合代码,而是保持清晰边
随着大模型参数规模不断增长,混合专家(Mixture-of-Experts, MoE)架构因其稀疏激活特性,成为平衡模型性能与计算开销的主流方案。然而,在实际的Web级应用部署中,一个关键挑战日益凸显:传统MoE的路由机制通常是“无记忆”的。 试想,在搜索引擎、智能问答或多轮对话等高并发场景下,用户
编程十年的一点分享 在软件开发的路上走过十几年,从一个爱好者到以此为业,有些体会或许值得聊聊,就当是抛砖引玉吧。 最早接触编程,是从BASIC和C语言开始的。工作后,随着需要,陆续学习了dBase、Access这类桌面数据库的开发。真正以开发为职业,可以说始于FoxPro 5 0,之后技术栈随着项目
引言 编程,是一门实践科学。这意味着,学习它的最佳方式就是动手去敲代码。但这是否意味着,我们可以因此轻视理论的学习呢? 入门编程 如果你去各大技术社区提问“该如何入门编程”,五花八门的答案会瞬间涌来。 不过,仔细梳理一下,无外乎以下几种流派: 学院派 他们推荐从C语言入手,并辅以数据结构、操作系统等
想象一下这个场景: 你让 AI Agent 帮你修一个代码 Bug。它打开项目,读了 20 个文件,改了改,跑了一下测试,没过,又改,又跑,还是没过……来回折腾了十几轮,终于——还是没修好。 你关掉电脑,松了口气。然后收到了 API 账单。 上面的数字可能让你倒吸一口凉气——AI Agent 自主修
热门专题
热门推荐
配置Git提交模板,本意是让每次提交信息都清晰、规范,但实际操作中,几个隐蔽的“坑”常常让这个功能形同虚设。今天,我们就来把这些坑一个个填平。 路径写错就静默失效,这是第一个大坑 配置项 commit template 对路径的敏感度超乎想象。写错一点,它不会报错,只会默默地“罢工”。结果就是你兴冲
在Linux平台进行C C++项目开发、系统软件编译或性能优化时,准确识别当前系统使用的编译器版本是至关重要的基础步骤。这不仅关系到代码能否成功编译、能否启用最新的语言特性,也直接影响最终程序的性能表现与跨平台兼容性。本文将详细介绍几种高效、可靠的查询方法,帮助您快速掌握系统编译环境。 快速查看默认
系统更新完成后,了解具体安装了哪些内容至关重要——究竟是安全补丁、驱动程序更新,还是功能模块升级?尤其在故障排查或合规性审计场景下,一份详尽准确的更新历史记录更是不可或缺。Windows 11 为此提供了五种互为补充的查看途径,从直观的图形界面到底层的日志分析,总有一种方法能精准匹配您的操作习惯与专
你的Mac版企业微信是不是也开始“闹脾气”了?运行卡顿、响应慢半拍,或者磁盘空间莫名其妙被吃掉一大块——别担心,这几乎是每个深度使用者的必经之路。问题的根源,往往就藏在那些日积月累的缓存文件、临时日志、沙盒残留,以及自动下载却从未查看的媒体文件里。 下面这五套清理方案,从官方工具到深度手动,你可以根
开机时屏幕上突然出现一个带斜杠的圆圈(?),这无疑是Mac用户最不愿遇到的启动故障之一。这个“禁止”符号明确提示:系统已识别到启动磁盘,但磁盘上的macOS版本与当前Mac硬件不兼容,或引导链在启动过程中意外中断,导致系统无法正常加载。请先保持冷静,此类问题通常有明确的解决方案。遵循以下从简到繁的排





