华为天才少年创业，全球首款虚实融合实时交互视频模型发布

首页

热心网友

转载

2026-02-10

编辑｜Youli

还记得童年的那个愿望吗？

随着《数码宝贝》进化曲的响起，屏幕前的你我或许都曾幻想过：要是那只从数码蛋中破壳而出的滚球兽，真的可以从电视屏幕那端跳出来，就好了。

彼时，我们只能将这种天马行空的「美梦」寄希望于「次元裂缝」的开启。再后来，技术增强现实（AR）技术曾一度带来了希望，但几经潮起潮落，结果仍停留在「预先制作的内容叠加」层面，数字角色无法真正感知环境。

而现在已经 2026 年了，生成式 AI、实时渲染、端侧算力、感知模型同时成熟，尤其是 Sora 展现出的前所未有的世界模拟能力，让大家意识到，原来虚拟内容不再需要完全预制，可以被实时生成、驱动，并具有物理合理性。技术的狂奔第一次让曾经的「中二梦」，具备了成为现实的可能：你真的可以从屏幕中「召唤」出一只滚球兽。

是不是很神奇？手机镜头对准桌面，选取一张滚球兽照片，下一秒，一只滚球兽就「脱屏而出」，出现在桌面上，四处张望。你伸出手，它刚开始会有点警惕，之后就亲昵地蹭你的手心，你轻轻一捏，它会给出Ｑ弹的物理反馈，而当你把手摊开，它甚至可以被你「托」在掌心之中，就好像，这是一只「活」的滚球兽……通过一个手机摄像头，虚拟角色第一次实现了与现实世界的融合。

这就是由初创公司 Xmax AI 推出的首个虚实融合的实时交互视频模型 X1，没有复杂的 Prompt，不需要漫长的渲染等待，只需要手势进行交互，就可以让虚拟世界与现实相连，在镜头中令「幻想」成真，让用户体验到实时交互的心流体验。

目前，Xmax AI 已通过一款技术演示型应用 X-cam（目前开放 testflight 下载），将 X1 的能力开放给部分用户体验，感兴趣的朋友可以通过文末提到的方式获取邀请码，近距离体验一下技术的边界。

「虚实融合 + 实时交互」，视频生成进入「人人可玩」时代

过去这一年多，AI 视频生成领域可以说是遍地开花、神仙打架。

数据显示，2024 年全球 AI 视频生成市场规模已达 6.148 亿美元，预计到 2032 年将飙升至 25.629 亿美元。在市场的强需求推动下，从 Sora 到 Runway，各路玩家都在沿着「更强的生成能力」方向极力狂奔：卷画质、卷时长、卷分辨率……

仔细看下来，整个赛道，大多数玩家选择的技术路线依然是文生视频，致力于面向专业领域的创作者 —— 影视、广告、内容工业等，打造更强大、更完善的生产力工具。

可不得不承认，在当前的「视频模型军备竞赛」中，普通用户似乎没有参与到狂欢中，感受就是「热闹是他们的，我什么也没有。」

原因很现实，首先是上手难，当然，很多视频生成工具操作起来已经很便捷，可很多时候写出精准的 Prompt 依然像是在编写代码，而且等待时间长，生成时间动辄从数秒到数分钟，再到数十分钟不等，缺乏即时反馈的快感。而漫长的等待后，得到的也不过是一段存在于屏幕里的「只能看、不能碰」，与当下日常生活毫无关系的虚拟视频。

Xmax AI 敏锐地捕捉到了这一点：AI 视频生成要想真正走入大众，就不能仅停留在「工具」阶段，要容易上手，要让大众有参与感，能够「玩」起来。

可这也就意味着，在基础视频生成能力之外，行业还需要跨越两座「大山」：一是降低交互门槛，改变传统的文生视频工具需要专业想法和 Prompt 撰写能力的方式；二是要与现实世界有更多结合，人是生活在现实中，文生视频模型一定程度上确实满足了完全虚拟化的想象，可人对现实的幻想并没有被满足。

基于此，Xmax AI 走了一条截然不同的路线：推出首个虚实融合的实时交互视频模型 X1，让视频生成告别键盘输入，回归人类最本能的手势与触控，仅需要一个手机摄像头，就能打破虚拟与现实的「壁」。

具体来看，基于 X1 强大的端侧实时生成能力，Xmax AI 将这一技术落地为四大核心玩法：次元互动、世界滤镜、触控动图、表情捕手…… 每一台手机似乎都变成了连接虚实的「魔法棒」。

次元互动：这就是前面那个视频所展示的能力，手机摄像头拍摄现实场景，任意上传一张角色参考图，就可以将该角色在镜头中「召唤」出来。

比如下面这个小兔子，你可以在镜头前伸出手与它互动，捏一捏、拍一拍，甚至将把它托到手上。视频中可以看到，当抚摸到兔子眼睛旁位置时，它会跟随人的动作转头，甚至可以看到绒毛因为触碰而遮盖眼睛的情况，没有延迟，因为它所有的物理反应都是 X1 模型实时生成的，所以，看起来就好像真的在抚摸一个真实存在的生命体。

不仅仅是动漫角色，可以说是任何自己喜欢的纸片人、宠物、毛绒玩具，都可以在镜头中「活」过来。

世界滤镜：任意上传一张风格参考图，就可以将手机摄像头拍摄的画面实时转换，变成指定的风格，例如梵高画风、乐高画风等。可以用于渲染环境，也可以用于渲染人物，甚至可以用于渲染屏幕内容，像是正在玩的游戏画面。

直接来看一个例子，下面视频中的小姐姐通过选取不同风格的参考图，让自己「化身」为图片所示风格的人物，可以是经典动漫中的二次元虚拟形象，也可以是乐高积木风格。而且，当小姐姐做出挥手或是摇头动作时，视频中「变身」后的人物或形象会实时跟着做出相应的动作。

触控动图：让静态照片「活」过来、动起来，不再需要复杂软件。对于任意一张照片，都可以在触摸屏上对照片中的角色进行拖拽控制，让它实时运动起来。

比如下面视频中动漫风格的小兔子，左右拖动它的耳朵，它就开始左右摇头；上下挥动，它就做出被拍脑袋的动作；拖动嘴角，它会露出微笑。「实物」也可以，给自家猫咪狗子拍张照上传，就可以让它挥手、抡拳，跳起舞；眨眼、吐舌、卖起萌。甚至是「恶搞」的，将刘海剪成整齐模样的马，也在镜头下开始摇头晃脑…… 就像在操控提线木偶，轻松赋予静止图像以生命力。

表情捕手：将相机镜头对准任意的人或物体，选择一个「大拇指」或「怒气冲冲」的 Emoji，AI 就会实时「捕捉」对方的特征，实时生成一个神态精准、魔性十足的动态表情包。这简直就是「社交神器」，以后聚会也不用担心冷场，随时就可以拿出来玩一下。

强大能力背后的技术挑战与实现

是不是很好玩，即便是对技术没什么了解，也可以轻松上手。但在业内人士看来，这不仅是产品的创新，更是工程能力的「暴力美学」。

「有趣体验背后，是极高的技术挑战。」Xmax AI 向机器之心透露，要实现上述这些效果，必须同时解决当前 AI 行业的三大痛点：

首先是极致实时，从上面的视频中也可以看出来，视频中的人物或是形象的反应随时能够跟着手势变，给用户产生一种「我在和它互动」的感觉，而这就要求延迟必须控制在毫秒级，可当前市面上的大多数所谓「实时」模型响应往往需要数秒，难以满足 Xmax AI 想要在交互场景中呈现的效果需求。

其次是意图理解，Xmax AI 的想法是希望交互方式多种多样且自然，对普通人来说门槛足够低，这就要求模型做到能够自动理解人的意图，并实时生成精准的反馈结果。可当前大多数模型都是文生视频、图生视频，无法实现这些手势交互效果。比如，对于模型来说，当人做出「捏」这个动作时，要读懂其中的意图，可要比读懂一段文字难得多。

另外，还存在数据稀缺的问题，对于整个 AI 行业来说，数据都足够重要却又极致稀缺，更何况是相对小众的「虚实融合交互数据」，生产成本高，构造难度极大。但现实又是，想要实现好的虚实融合的效果就必须基于大量且专业的高质量训练数据。

这些挑战一度让 Xmax AI 犯了难。

但需要注意的是，Xmax AI 是一支既懂底层算法，又懂工程化落地，还拥有敏锐产品嗅觉的「特种部队」。

创始人史佳欣，出身于华为「天才少年」计划，是一位典型的技术极客。联合创始人梁宸，现任港科大（广州）助理教授、博导。联合创始人翁跃庭，是一位「六边形战士」型的全栈工程师。而公司核心技术团队则都是来自清华大学 KEG 实验室和 HCI 实验室的人才，是国内大模型领域和人机交互领域的顶尖力量。

不仅如此，团队核心成员也大都在字节、快手、华为、阿里等头部 AI 大厂历练过，有着丰富的技术落地实践经验。

因此，面对上述这些挑战，Xmax AI 交出了一份「硬核」的技术答卷。

针对极致实时性需求，Xmax AI 进行架构创新，提出了端到端的流式重渲染视频模型架构，实现了帧级别的自回归 DiT（Diffusion Transformer），并通过多阶段的蒸馏压缩和对抗训练，百倍提升了每一帧画面的扩散采样速度。不仅将延迟压低至毫秒级，更是通过自研的「循环回归架构」打破了时长的限制，支持无限时长的连续生成。

针对模型对意图理解的高要求，Xmax.AI 则构建了统一的交互模型架构，让模型既能理解摄像头透视下的空间三维关系，也能理解屏幕触控下的平面二维操作，从而对于用户的各类交互行为，模型都能够实现精准的意图识别。

而针对「数据荒漠」难题，Xmax AI 则搭建了虚实融合数据的合成管线，利用半自动化方式，低成本、批量化地生成了高质量的交互训练数据，构建了难以复刻的行业壁垒。

体验了这么多玩法，相信大家已经隐约感知到 Xmax AI 想做的事情了。如果说 Sora 代表的是一条极致强化生成能力的路线，让 AI 学会拍电影、构图、运镜、叙事，那么 X1 则是希望 AI 能够陪你玩，随时出现在你周围的生活场景中。

从这个角度来看，对于 Xmax AI 团队而言，X1 模型仅仅是一个开始。

其实从前面 X1 的模型能力展现上也可以看出来，Xmax AI 不是想「再造」一个专业的视频创作工具，开发一款 App，更是在试图搭建下一代内容交互引擎，重新定义用户与 AI 生成内容之间的个性化交互方式。

在他们的愿景里，这个新时代中，那些曾经只能存在于影视作品和虚拟世界中的角色，不管是数码宝贝，还是银翼杀手式的仿生生命体，都可以走进现实，成为虚实融合的「数字生命体」，进入家庭，成为用户的虚拟陪伴、虚拟宠物等。

与此同时，「万物可交互」也不再只是一个空想，不管是刷短视频、看直播，还是视频通话、线上会议，都可以实时改变视觉形态，一边看一边玩，带来全新的个性化体验；社交互动变得更立体、更有趣，摄像头化身「精灵球」，随时随地「捕捉」一个好友过来，对 TA 进行打扮……

也就是说，Xmax AI 所做的，是通过 AI 将「幻想」拉得更近，近到可以触碰、互动、分享，真正融入人们的日常生活。

正如 Xmax AI Slogan 所言，Play the World through AI（用 AI 玩转世界），让世界触手可「玩」。

最后，感兴趣的朋友可以通过 testflight 邀请链接下载 APP，下载后在登录界面点击申请邀请码，也可以通过 Xmax AI 正式来提前体验、感受这一切。这一次，你可以亲自推开那扇通往虚实融合世界的「门」。

testflight 邀请链接：https://testflight.apple.com/join/8sWgKZeQXmax AI正式链接：https://xmax.ai/

文中视频链接：https://mp.weixin.qq.com/s/xnaOGvC5_EVYxsJYxVE_xQ

来源:https://www.163.com/dy/article/KLANJ2KB0511AQHO.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：英伟达世界模型新突破：单模型驱动所有机器人下一篇：美国就业市场降温，AI岗位需求逆势增长66%

华为天才少年创业，全球首款虚实融合实时交互视频模型发布

相关攻略

热门专题

最新APP

热门推荐