华为天才少年创业,全球首款虚实融合实时交互视频模型发布

编辑|Youli
还记得童年的那个愿望吗?
随着《数码宝贝》进化曲的响起,屏幕前的你我或许都曾幻想过:要是那只从数码蛋中破壳而出的滚球兽,真的可以从电视屏幕那端跳出来,就好了。

彼时,我们只能将这种天马行空的「美梦」寄希望于「次元裂缝」的开启。再后来,技术增强现实(AR)技术曾一度带来了希望,但几经潮起潮落,结果仍停留在「预先制作的内容叠加」层面,数字角色无法真正感知环境。
而现在已经 2026 年了,生成式 AI、实时渲染、端侧算力、感知模型同时成熟,尤其是 Sora 展现出的前所未有的世界模拟能力,让大家意识到,原来虚拟内容不再需要完全预制,可以被实时生成、驱动,并具有物理合理性。技术的狂奔第一次让曾经的「中二梦」,具备了成为现实的可能:你真的可以从屏幕中「召唤」出一只滚球兽。

是不是很神奇?手机镜头对准桌面,选取一张滚球兽照片,下一秒,一只滚球兽就「脱屏而出」,出现在桌面上,四处张望。你伸出手,它刚开始会有点警惕,之后就亲昵地蹭你的手心,你轻轻一捏,它会给出Q弹的物理反馈,而当你把手摊开,它甚至可以被你「托」在掌心之中,就好像,这是一只「活」的滚球兽……通过一个手机摄像头,虚拟角色第一次实现了与现实世界的融合。
这就是由初创公司 Xmax AI 推出的首个虚实融合的实时交互视频模型 X1,没有复杂的 Prompt,不需要漫长的渲染等待,只需要手势进行交互,就可以让虚拟世界与现实相连,在镜头中令「幻想」成真,让用户体验到实时交互的心流体验。

目前,Xmax AI 已通过一款技术演示型应用 X-cam(目前开放 testflight 下载),将 X1 的能力开放给部分用户体验,感兴趣的朋友可以通过文末提到的方式获取邀请码,近距离体验一下技术的边界。
「虚实融合 + 实时交互」,视频生成进入「人人可玩」时代
过去这一年多,AI 视频生成领域可以说是遍地开花、神仙打架。
数据显示,2024 年全球 AI 视频生成市场规模已达 6.148 亿美元,预计到 2032 年将飙升至 25.629 亿美元。在市场的强需求推动下,从 Sora 到 Runway,各路玩家都在沿着「更强的生成能力」方向极力狂奔:卷画质、卷时长、卷分辨率……
仔细看下来,整个赛道,大多数玩家选择的技术路线依然是文生视频,致力于面向专业领域的创作者 —— 影视、广告、内容工业等,打造更强大、更完善的生产力工具。
可不得不承认,在当前的「视频模型军备竞赛」中,普通用户似乎没有参与到狂欢中,感受就是「热闹是他们的,我什么也没有。」
原因很现实,首先是上手难,当然,很多视频生成工具操作起来已经很便捷,可很多时候写出精准的 Prompt 依然像是在编写代码,而且等待时间长,生成时间动辄从数秒到数分钟,再到数十分钟不等,缺乏即时反馈的快感。而漫长的等待后,得到的也不过是一段存在于屏幕里的「只能看、不能碰」,与当下日常生活毫无关系的虚拟视频。
Xmax AI 敏锐地捕捉到了这一点:AI 视频生成要想真正走入大众,就不能仅停留在「工具」阶段,要容易上手,要让大众有参与感,能够「玩」起来。

可这也就意味着,在基础视频生成能力之外,行业还需要跨越两座「大山」:一是降低交互门槛,改变传统的文生视频工具需要专业想法和 Prompt 撰写能力的方式;二是要与现实世界有更多结合,人是生活在现实中,文生视频模型一定程度上确实满足了完全虚拟化的想象,可人对现实的幻想并没有被满足。
基于此,Xmax AI 走了一条截然不同的路线:推出首个虚实融合的实时交互视频模型 X1,让视频生成告别键盘输入,回归人类最本能的手势与触控,仅需要一个手机摄像头,就能打破虚拟与现实的「壁」。
具体来看,基于 X1 强大的端侧实时生成能力,Xmax AI 将这一技术落地为四大核心玩法:次元互动、世界滤镜、触控动图、表情捕手…… 每一台手机似乎都变成了连接虚实的「魔法棒」。
次元互动:这就是前面那个视频所展示的能力,手机摄像头拍摄现实场景,任意上传一张角色参考图,就可以将该角色在镜头中「召唤」出来。
比如下面这个小兔子,你可以在镜头前伸出手与它互动,捏一捏、拍一拍,甚至将把它托到手上。视频中可以看到,当抚摸到兔子眼睛旁位置时,它会跟随人的动作转头,甚至可以看到绒毛因为触碰而遮盖眼睛的情况,没有延迟,因为它所有的物理反应都是 X1 模型实时生成的,所以,看起来就好像真的在抚摸一个真实存在的生命体。

不仅仅是动漫角色,可以说是任何自己喜欢的纸片人、宠物、毛绒玩具,都可以在镜头中「活」过来。
世界滤镜:任意上传一张风格参考图,就可以将手机摄像头拍摄的画面实时转换,变成指定的风格,例如梵高画风、乐高画风等。可以用于渲染环境,也可以用于渲染人物,甚至可以用于渲染屏幕内容,像是正在玩的游戏画面。
直接来看一个例子,下面视频中的小姐姐通过选取不同风格的参考图,让自己「化身」为图片所示风格的人物,可以是经典动漫中的二次元虚拟形象,也可以是乐高积木风格。而且,当小姐姐做出挥手或是摇头动作时,视频中「变身」后的人物或形象会实时跟着做出相应的动作。

触控动图:让静态照片「活」过来、动起来,不再需要复杂软件。对于任意一张照片,都可以在触摸屏上对照片中的角色进行拖拽控制,让它实时运动起来。
比如下面视频中动漫风格的小兔子,左右拖动它的耳朵,它就开始左右摇头;上下挥动,它就做出被拍脑袋的动作;拖动嘴角,它会露出微笑。「实物」也可以,给自家猫咪狗子拍张照上传,就可以让它挥手、抡拳,跳起舞;眨眼、吐舌、卖起萌。甚至是「恶搞」的,将刘海剪成整齐模样的马,也在镜头下开始摇头晃脑…… 就像在操控提线木偶,轻松赋予静止图像以生命力。

表情捕手:将相机镜头对准任意的人或物体,选择一个「大拇指」或「怒气冲冲」的 Emoji,AI 就会实时「捕捉」对方的特征,实时生成一个神态精准、魔性十足的动态表情包。这简直就是「社交神器」,以后聚会也不用担心冷场,随时就可以拿出来玩一下。

强大能力背后的技术挑战与实现
是不是很好玩,即便是对技术没什么了解,也可以轻松上手。但在业内人士看来,这不仅是产品的创新,更是工程能力的「暴力美学」。
「有趣体验背后,是极高的技术挑战。」Xmax AI 向机器之心透露,要实现上述这些效果,必须同时解决当前 AI 行业的三大痛点:
首先是极致实时,从上面的视频中也可以看出来,视频中的人物或是形象的反应随时能够跟着手势变,给用户产生一种「我在和它互动」的感觉,而这就要求延迟必须控制在毫秒级,可当前市面上的大多数所谓「实时」模型响应往往需要数秒,难以满足 Xmax AI 想要在交互场景中呈现的效果需求。

其次是意图理解,Xmax AI 的想法是希望交互方式多种多样且自然,对普通人来说门槛足够低,这就要求模型做到能够自动理解人的意图,并实时生成精准的反馈结果。可当前大多数模型都是文生视频、图生视频,无法实现这些手势交互效果。比如,对于模型来说,当人做出「捏」这个动作时,要读懂其中的意图,可要比读懂一段文字难得多。
另外,还存在数据稀缺的问题,对于整个 AI 行业来说,数据都足够重要却又极致稀缺,更何况是相对小众的「虚实融合交互数据」,生产成本高,构造难度极大。但现实又是,想要实现好的虚实融合的效果就必须基于大量且专业的高质量训练数据。
这些挑战一度让 Xmax AI 犯了难。
但需要注意的是,Xmax AI 是一支既懂底层算法,又懂工程化落地,还拥有敏锐产品嗅觉的「特种部队」。
创始人史佳欣,出身于华为「天才少年」计划,是一位典型的技术极客。联合创始人梁宸,现任港科大(广州)助理教授、博导。联合创始人翁跃庭,是一位「六边形战士」型的全栈工程师。而公司核心技术团队则都是来自清华大学 KEG 实验室和 HCI 实验室的人才,是国内大模型领域和人机交互领域的顶尖力量。
不仅如此,团队核心成员也大都在字节、快手、华为、阿里等头部 AI 大厂历练过,有着丰富的技术落地实践经验。
因此,面对上述这些挑战,Xmax AI 交出了一份「硬核」的技术答卷。
针对极致实时性需求,Xmax AI 进行架构创新,提出了端到端的流式重渲染视频模型架构,实现了帧级别的自回归 DiT(Diffusion Transformer),并通过多阶段的蒸馏压缩和对抗训练,百倍提升了每一帧画面的扩散采样速度。不仅将延迟压低至毫秒级,更是通过自研的「循环回归架构」打破了时长的限制,支持无限时长的连续生成。
针对模型对意图理解的高要求,Xmax.AI 则构建了统一的交互模型架构,让模型既能理解摄像头透视下的空间三维关系,也能理解屏幕触控下的平面二维操作,从而对于用户的各类交互行为,模型都能够实现精准的意图识别。
而针对「数据荒漠」难题,Xmax AI 则搭建了虚实融合数据的合成管线,利用半自动化方式,低成本、批量化地生成了高质量的交互训练数据,构建了难以复刻的行业壁垒。
体验了这么多玩法,相信大家已经隐约感知到 Xmax AI 想做的事情了。如果说 Sora 代表的是一条极致强化生成能力的路线,让 AI 学会拍电影、构图、运镜、叙事,那么 X1 则是希望 AI 能够陪你玩,随时出现在你周围的生活场景中。
从这个角度来看,对于 Xmax AI 团队而言,X1 模型仅仅是一个开始。
其实从前面 X1 的模型能力展现上也可以看出来,Xmax AI 不是想「再造」一个专业的视频创作工具,开发一款 App,更是在试图搭建下一代内容交互引擎,重新定义用户与 AI 生成内容之间的个性化交互方式。
在他们的愿景里,这个新时代中,那些曾经只能存在于影视作品和虚拟世界中的角色,不管是数码宝贝,还是银翼杀手式的仿生生命体,都可以走进现实,成为虚实融合的「数字生命体」,进入家庭,成为用户的虚拟陪伴、虚拟宠物等。
与此同时,「万物可交互」也不再只是一个空想,不管是刷短视频、看直播,还是视频通话、线上会议,都可以实时改变视觉形态,一边看一边玩,带来全新的个性化体验;社交互动变得更立体、更有趣,摄像头化身「精灵球」,随时随地「捕捉」一个好友过来,对 TA 进行打扮……
也就是说,Xmax AI 所做的,是通过 AI 将「幻想」拉得更近,近到可以触碰、互动、分享,真正融入人们的日常生活。
正如 Xmax AI Slogan 所言,Play the World through AI(用 AI 玩转世界),让世界触手可「玩」。
最后,感兴趣的朋友可以通过 testflight 邀请链接下载 APP,下载后在登录界面点击申请邀请码,也可以通过 Xmax AI 正式来提前体验、感受这一切。这一次,你可以亲自推开那扇通往虚实融合世界的「门」。
testflight 邀请链接:https://testflight.apple.com/join/8sWgKZeQXmax AI正式链接:https://xmax.ai/
文中视频链接:https://mp.weixin.qq.com/s/xnaOGvC5_EVYxsJYxVE_xQ
相关攻略
数字逻辑与物质建构的深度对话 ——评许哲诚“境域·生成”计算性设计展演 □ 丁雅力(江苏省美术馆策展人) 当代设计与造物的核心范式,正经历着由计算性设计带来的深刻变革。2026年3月20日,南京艺术学院教师许哲诚于南京莫玄空间呈现的“境域·生成”个人专场展演,正是这一前沿趋势的集中体现。本次展览超越
近日,开源具身智能原生框架Dexbotic宣布正式支持以RLinf作为其分布式强化学习后端。对具身智能开发者而言,这不仅是一次普通的工程适配,更意味着VLA模型研发中长期存在的「SFT与RL割裂」问题,正在被真正打通。 这是一种典型的「乐高式协作」:双方不强行Fork、不粗暴揉合代码,而是保持清晰边
随着大模型参数规模不断增长,混合专家(Mixture-of-Experts, MoE)架构因其稀疏激活特性,成为平衡模型性能与计算开销的主流方案。然而,在实际的Web级应用部署中,一个关键挑战日益凸显:传统MoE的路由机制通常是“无记忆”的。 试想,在搜索引擎、智能问答或多轮对话等高并发场景下,用户
编程十年的一点分享 在软件开发的路上走过十几年,从一个爱好者到以此为业,有些体会或许值得聊聊,就当是抛砖引玉吧。 最早接触编程,是从BASIC和C语言开始的。工作后,随着需要,陆续学习了dBase、Access这类桌面数据库的开发。真正以开发为职业,可以说始于FoxPro 5 0,之后技术栈随着项目
引言 编程,是一门实践科学。这意味着,学习它的最佳方式就是动手去敲代码。但这是否意味着,我们可以因此轻视理论的学习呢? 入门编程 如果你去各大技术社区提问“该如何入门编程”,五花八门的答案会瞬间涌来。 不过,仔细梳理一下,无外乎以下几种流派: 学院派 他们推荐从C语言入手,并辅以数据结构、操作系统等
热门专题
热门推荐
广东无人机适飞空域扩大16%至10 24万平方公里,覆盖全省57%陆地面积,滨海、郊野、工业园区及非核心城区公园等区域开放,深圳市区新增连片适飞区。飞行需通过民航局UOM平台提前申请,严禁“黑飞”,违者将受处罚。平台已升级,实现全国规则统一与分钟级空域更新,支持低空物流与巡检等应用。
杭州Costco门店因iPhone17系列手机引发抢购热潮,数百人排队致迅速断货。抢购源于官方降价与地方补贴叠加:iPhone17Pro全系直降千元,同时当地青年消费补贴可再减10%,最高省千元。双重优惠下,256GB版iPhone17Pro到手价低至7172元,较电商平台便宜近千元,吸引本地及周边消费者。目前门店仍处缺货状态,补货时间未定。
5月17日晚,长征八号运载火箭在海南商业航天发射场点火升空,成功将千帆星座第九批组网卫星送入预定轨道。此次发射是该发射场启用以来的第15次成功发射,也是今年第5次发射,体现了我国商业航天发射能力的日益成熟和常态化运营的稳步推进。
七彩虹新款iGameM15 M16Origo2026款游戏本已发售,起售价11499元。M15为15 3英寸黑色机身,配备2 5K300Hz屏,最高可选Ultra9处理器与RTX5070显卡。M16为16英寸白色款,屏幕规格相同,处理器性能更强,电池容量更大。两款均提供多种配置,享受国家补贴后价格更具竞争力,面向中高端游戏玩家与创作者。
联想在北美市场推出新款ThinkPadT14Gen7商务笔记本,支持用户自行更换LPCAMM2内存。该机型提供多款英特尔酷睿Ultra处理器选项,内存可选16GB至64GB,电池与屏幕亦有多种配置,其中顶配版搭载OLED屏幕。产品起售价为1618美元,高配版本价格超过3700美元,主要面向商用及专业办公市场,兼顾性能、可升级性与不同预算需求。





