上海 AI+Lab 实现突破:浏览器中 2ms 渲染 600 万 3D 高斯点
打开浏览器就能直接走进一个逼真的 3D 世界,还能像玩游戏一样自由旋转角度,更能看清每一个物体的细节,甚至还能看到会动的虚拟人向你招手。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
这上海交通大学人工智能学院钟志航副教授和上海人工智能实验室等合作者打造的一个名为 Visionary 的平台,能让复杂的 3D 场景在浏览器里流畅运行,不需要下载任何软件,也不需要高性能显卡,点击链接就能看。

图 | 钟志航(来源:受访者)
以前要想看一个高质量的 3D 模型,要么得下载几个 G 的安装包,要么得忍受卡顿和模糊的画质。现在,研究人员将一个名为 3D 高斯溅射的技术搬到浏览器里,而且跑得比很多本地软件还快。
什么是 3D 高斯溅射?它好比一个超级智能的点彩画技术。传统 3D 模型要使用大量三角形网格拼出物体,计算量巨大。而高斯溅射使用成千上万个带有颜色和透明度的小点来代替场景,这些点像雾气一样悬浮在空间中,从不同角度看过去它们会组合成为完整的画面。这项技术因为效果好、速度快,正在成为一些世界模型创业公司的核心工具。

(来源:https://visionary-laboratory.github.io/visionary/)
但是问题来了,这么牛的技术普通人怎么用?以前的方法要么依赖笨重的本地软件,装起来非常费劲;要么在网页上跑,但使用的是老旧的 WebGL 技术,只能看静态画面,稍微动一下就卡顿,更别提那些会动的、会变化的场景了。

(来源:https://arxiv.org/pdf/2512.04597)
Visionary 的突破在于,它把整套技术栈搬到了 WebGPU 上。WebGPU 是新一代浏览器图形标准,能让网页直接调用显卡干活。Visionary 还做了一个很聪明的设计,他们把各种复杂的 3D 算法统一打包成为 ONNX 格式。
ONNX 就像一个通用语言,不管是用 PyTorch 还是用 TensorFlow 训练的模型,都成转成为这个格式,然后在浏览器里直接运行。这就意味着,你不需要懂底层代码,就能把最新的 3D 技术插进 Visionary 里用。
具体有多快?研究团队拿一个包含 600 万个高斯点的经典场景做了测试。现有的李飞飞 WorldLbas 团队推出的网页查看器 SparkJS 处理一帧需要 176 毫秒,而 Visionary 只需要 2 毫米,快乐将近 100 倍。而且画质一点都没有打折,反而因为算法优化变得更加细腻。

(来源:https://arxiv.org/pdf/2512.04597)
同时,Visionary 不只会处理静态场景。它支持会动的 4D 场景,支持可驱动的虚拟人,甚至支持在渲染完成后加滤镜和做风格迁移。比如你导入一个虚拟人模型,输入几个动作参数,它就能在浏览器里实时跳舞。这些动态效果以前只能在专业的动画软件里看到,现在点开网页就行。
研究团队使用几个案例展示了 Visionary 的能力。他们把 Scaffold GS 这种基于神经网络的 3D 模型跑进了浏览器,每帧只需要 9 到 16 毫秒生成画面。
他们把 4D 高斯溅射也搬了过来,处理动态场景时每帧只要不到 8 毫秒。对于虚拟人动画,即使是同时驱动 10 个虚拟人,也能保持在 55 毫秒左右,基本达到实时交互的标准。

(来源:https://arxiv.org/pdf/2512.04597)
这意味着未来的 3D/4D 内容将触手可及,不再受限于设备性能。设计师想展示一个视频,发给客户一个网址客户就能沉浸式体验;至于游戏 开发者他们甚至可以在浏览器里跑起来轻量级的 3D 游戏。
Visionary 已经在 GitHub 上开源了,任何人都能访问。他们还做了一个在线编辑器,你可以在里面同时加载多个 3D 模型,和传统网络模型混合渲染,实时调整视角。
钟志航告诉 DeepTech:“这项技术已经有了实际应用。在上海人工智能实验室的 2025 世界人工智能大会成果中,有一个叫书生翼飞的项目,就是基于 Visionary 把上海一大块区域的环境重建出来放在网页端,用户输入想要的飞机型号,系统就能实时生成对应的飞机,在上海上空模拟飞行。
在数字孪生领域,工厂或供应链需要把各个环节数字化,有了这项技术,整个孪生体系会变得非常逼真,方便人交互,也方便智能体在接近真实环境的空间里学习操作。”

(来源:https://arxiv.org/pdf/2512.04597)
当然,这项技术还在进化中。研究团队在论文里也提到,WebGPU 和 ONNX Runtime 还在发展,不同浏览器可能存在兼容差异。浏览器安全策略也对内存有约束,太大规模的场景和神经网络目前还跑不了。但是方向已然非常清晰:那就是未来的 3D 世界不再遥远,就存在于可能你此刻正在使用的浏览器。
钟志航表示,Visionary 还打包成了一个 three.js 的库,这意味着做游戏、做网页端开发都可以直接使用,共享整个 three.js 的生态系统。
后续团队计划在物理交互上发力,比如在游戏场景中加入力的反馈,弓箭射中墙面得有反应。同时也在构建空间智能体的评测基准,因为这套体系能把神经网络嵌到网页端做推理,甚至可以让体量不太大的多模态模型直接在网页上跑,一边做逼真的对话,一边执行空间任务。
钟志航的 Visionary 团队在招聘熟悉神经渲染和图形学的工程师和实习生,以及欢迎申请其在上海交通大学空间多媒体实验室的硕士博士以及 RA。详情请联系邮箱 zzh.tech@gmail.com
参考资料:
相关论文:https://arxiv.org/pdf/2512.04597
相关开源代码:https://github.com/Visionary-Laboratory/visionary
运营/排版:何晨龙
相关攻略
Discord接入:让OpenClaw成为你的社区智能管家 对于全球数亿的游戏玩家和社群爱好者来说,Discord几乎等同于线上“大本营”。那么,有没有可能让你精心搭建的Discord服务器也拥有一个聪明能干的AI助手呢?答案是完全可行。通过创建Discord Bot(机器人),你可以将OpenCl
Claude最强“神话”模型,可能用到来自字节的技术? 这条猜测直接冲上了热搜榜。 这款被形容为“强到不敢公开发布”的Mythos模型,确实极大地刺激了人们对下一代大语言模型架构的想象空间。 社区讨论的焦点,正集中在它是否采用了“循环语言模型”(Looped Language Model)这一创新架
国产大模型DeepSeek迎来重大更新:快速模式与专家模式上线 最新消息显示,国产AI大模型DeepSeek再次迎来重要升级。4月8日,用户在访问DeepSeek时发现,输入框上方新增了“快速模式”与“专家模式”两个选项。根据官方说明,快速模式专注于日常对话场景,响应速度快,同时支持图片和文件中的文
飞书接入指南:为你的团队嵌入一位AI同事 如果你身处国内互联网或科技行业,对飞书这款高效协作平台一定非常熟悉。如今,它已不仅是团队沟通工具,更成为众多企业的数字化工作中枢。那么,能否让团队成员在飞书内部,直接调用强大的AI智能助手来提升效率呢?答案是肯定的。本指南将手把手教你,如何将OpenClaw
面对复杂连续任务的长程规划,现有的生成式离线强化学习方法往往会暴露短板。它们生成的轨迹经常陷入局部合理但全局偏航的窘境。它们太关注眼前的每一步,却忘了最终的目的地。针对这一痛点,厦门大学和香港科技大
热门专题
热门推荐
智能家居赛道激战正酣,小米电视凭何赢得消费者青睐? 如今的智能家居市场,早已是一片红海。各方势力角逐之下,小米电视却悄然跃升为许多家庭选购清单上的重要选项。从沉浸式的家庭影院到酣畅淋漓的游戏娱乐,它凭借一套覆盖多元场景的产品组合,其市场表现值得深入一探。 核心优势:一张覆盖全场景的产品网 说起小米电
王者万象棋女娲最强出装与实战手法全攻略 在《王者万象棋》的激烈对抗中,决定一位英雄上限的往往不只是其技能机制,更在于能否通过精准的装备搭配,将她的核心能力彻底解放。女娲正是如此,一套契合版本的出装方案,是她掌控全场节奏、奠定胜局的核心保障。 王者万象棋女娲怎么出装 要让女娲的远程消耗与爆发控制能力全
深入理解C语言递归的核心原理与工作机制在C语言编程中,递归是一种强大的编程范式,指函数直接或间接调用自身来解决问题。掌握递归的关键在于领悟其核心思想:将复杂的原始问题,逐步分解为结构相似但规模更小的子问题,直至子问题简化到能够直接求解的基线条件。这一过程主要包含两个不可或缺的组成部分:递归基(出口)
Xbox One的硬件体验与日常维护作为一款已进入生命成熟期的游戏主机,Xbox One在长期使用中展现出了其设计的稳定性。其机身设计相对宽大,这为内部散热提供了一定空间,但也意味着在电视柜中需要占据不小的位置。在长时间游戏后,机身会排出温热空气,这属于正常现象,保持良好的通风环境至关重要,避免将主
如何在合约交易中利用“一目均衡表(IKH)”判断长线趋势? 判断长线趋势,从来不是单凭一两个信号就能拍板的。它更像是一个系统工程,需要多个维度的证据相互印证。说到这,就不得不提一目均衡表(IKH)这套经典工具。它之所以在趋势交易者中备受推崇,正是因为它提供了一套环环相扣的验证逻辑。 一目均衡表长线趋





