首页 游戏 软件 资讯 排行榜 专题
首页
AI
华为天才少年创业,全球首款虚实融合实时交互视频模型发布

华为天才少年创业,全球首款虚实融合实时交互视频模型发布

热心网友
42
转载
2026-02-10


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈



编辑|Youli

还记得童年的那个愿望吗?

随着《数码宝贝》进化曲的响起,屏幕前的你我或许都曾幻想过:要是那只从数码蛋中破壳而出的滚球兽,真的可以从电视屏幕那端跳出来,就好了。



彼时,我们只能将这种天马行空的「美梦」寄希望于「次元裂缝」的开启。再后来,技术增强现实(AR)技术曾一度带来了希望,但几经潮起潮落,结果仍停留在「预先制作的内容叠加」层面,数字角色无法真正感知环境。

而现在已经 2026 年了,生成式 AI、实时渲染、端侧算力、感知模型同时成熟,尤其是 Sora 展现出的前所未有的世界模拟能力,让大家意识到,原来虚拟内容不再需要完全预制,可以被实时生成、驱动,并具有物理合理性。技术的狂奔第一次让曾经的「中二梦」,具备了成为现实的可能:你真的可以从屏幕中「召唤」出一只滚球兽。



是不是很神奇?手机镜头对准桌面,选取一张滚球兽照片,下一秒,一只滚球兽就「脱屏而出」,出现在桌面上,四处张望。你伸出手,它刚开始会有点警惕,之后就亲昵地蹭你的手心,你轻轻一捏,它会给出Q弹的物理反馈,而当你把手摊开,它甚至可以被你「托」在掌心之中,就好像,这是一只「活」的滚球兽……通过一个手机摄像头,虚拟角色第一次实现了与现实世界的融合。

这就是由初创公司 Xmax AI 推出的首个虚实融合的实时交互视频模型 X1,没有复杂的 Prompt,不需要漫长的渲染等待,只需要手势进行交互,就可以让虚拟世界与现实相连,在镜头中令「幻想」成真,让用户体验到实时交互的心流体验。



目前,Xmax AI 已通过一款技术演示型应用 X-cam(目前开放 testflight 下载),将 X1 的能力开放给部分用户体验,感兴趣的朋友可以通过文末提到的方式获取邀请码,近距离体验一下技术的边界。

「虚实融合 + 实时交互」,视频生成进入「人人可玩」时代

过去这一年多,AI 视频生成领域可以说是遍地开花、神仙打架。

数据显示,2024 年全球 AI 视频生成市场规模已达 6.148 亿美元,预计到 2032 年将飙升至 25.629 亿美元。在市场的强需求推动下,从 Sora 到 Runway,各路玩家都在沿着「更强的生成能力」方向极力狂奔:卷画质、卷时长、卷分辨率……

仔细看下来,整个赛道,大多数玩家选择的技术路线依然是文生视频,致力于面向专业领域的创作者 —— 影视、广告、内容工业等,打造更强大、更完善的生产力工具。

可不得不承认,在当前的「视频模型军备竞赛」中,普通用户似乎没有参与到狂欢中,感受就是「热闹是他们的,我什么也没有。」

原因很现实,首先是上手难,当然,很多视频生成工具操作起来已经很便捷,可很多时候写出精准的 Prompt 依然像是在编写代码,而且等待时间长,生成时间动辄从数秒到数分钟,再到数十分钟不等,缺乏即时反馈的快感。而漫长的等待后,得到的也不过是一段存在于屏幕里的「只能看、不能碰」,与当下日常生活毫无关系的虚拟视频。

Xmax AI 敏锐地捕捉到了这一点:AI 视频生成要想真正走入大众,就不能仅停留在「工具」阶段,要容易上手,要让大众有参与感,能够「玩」起来。



可这也就意味着,在基础视频生成能力之外,行业还需要跨越两座「大山」:一是降低交互门槛,改变传统的文生视频工具需要专业想法和 Prompt 撰写能力的方式;二是要与现实世界有更多结合,人是生活在现实中,文生视频模型一定程度上确实满足了完全虚拟化的想象,可人对现实的幻想并没有被满足。

基于此,Xmax AI 走了一条截然不同的路线:推出首个虚实融合的实时交互视频模型 X1,让视频生成告别键盘输入,回归人类最本能的手势与触控,仅需要一个手机摄像头,就能打破虚拟与现实的「壁」。

具体来看,基于 X1 强大的端侧实时生成能力,Xmax AI 将这一技术落地为四大核心玩法:次元互动、世界滤镜、触控动图、表情捕手…… 每一台手机似乎都变成了连接虚实的「魔法棒」。

次元互动:这就是前面那个视频所展示的能力,手机摄像头拍摄现实场景,任意上传一张角色参考图,就可以将该角色在镜头中「召唤」出来。

比如下面这个小兔子,你可以在镜头前伸出手与它互动,捏一捏、拍一拍,甚至将把它托到手上。视频中可以看到,当抚摸到兔子眼睛旁位置时,它会跟随人的动作转头,甚至可以看到绒毛因为触碰而遮盖眼睛的情况,没有延迟,因为它所有的物理反应都是 X1 模型实时生成的,所以,看起来就好像真的在抚摸一个真实存在的生命体。



不仅仅是动漫角色,可以说是任何自己喜欢的纸片人、宠物、毛绒玩具,都可以在镜头中「活」过来。

世界滤镜:任意上传一张风格参考图,就可以将手机摄像头拍摄的画面实时转换,变成指定的风格,例如梵高画风、乐高画风等。可以用于渲染环境,也可以用于渲染人物,甚至可以用于渲染屏幕内容,像是正在玩的游戏画面。

直接来看一个例子,下面视频中的小姐姐通过选取不同风格的参考图,让自己「化身」为图片所示风格的人物,可以是经典动漫中的二次元虚拟形象,也可以是乐高积木风格。而且,当小姐姐做出挥手或是摇头动作时,视频中「变身」后的人物或形象会实时跟着做出相应的动作。



触控动图:让静态照片「活」过来、动起来,不再需要复杂软件。对于任意一张照片,都可以在触摸屏上对照片中的角色进行拖拽控制,让它实时运动起来。

比如下面视频中动漫风格的小兔子,左右拖动它的耳朵,它就开始左右摇头;上下挥动,它就做出被拍脑袋的动作;拖动嘴角,它会露出微笑。「实物」也可以,给自家猫咪狗子拍张照上传,就可以让它挥手、抡拳,跳起舞;眨眼、吐舌、卖起萌。甚至是「恶搞」的,将刘海剪成整齐模样的马,也在镜头下开始摇头晃脑…… 就像在操控提线木偶,轻松赋予静止图像以生命力。



表情捕手:将相机镜头对准任意的人或物体,选择一个「大拇指」或「怒气冲冲」的 Emoji,AI 就会实时「捕捉」对方的特征,实时生成一个神态精准、魔性十足的动态表情包。这简直就是「社交神器」,以后聚会也不用担心冷场,随时就可以拿出来玩一下。



强大能力背后的技术挑战与实现

是不是很好玩,即便是对技术没什么了解,也可以轻松上手。但在业内人士看来,这不仅是产品的创新,更是工程能力的「暴力美学」。

「有趣体验背后,是极高的技术挑战。」Xmax AI 向机器之心透露,要实现上述这些效果,必须同时解决当前 AI 行业的三大痛点:

首先是极致实时,从上面的视频中也可以看出来,视频中的人物或是形象的反应随时能够跟着手势变,给用户产生一种「我在和它互动」的感觉,而这就要求延迟必须控制在毫秒级,可当前市面上的大多数所谓「实时」模型响应往往需要数秒,难以满足 Xmax AI 想要在交互场景中呈现的效果需求。



其次是意图理解,Xmax AI 的想法是希望交互方式多种多样且自然,对普通人来说门槛足够低,这就要求模型做到能够自动理解人的意图,并实时生成精准的反馈结果。可当前大多数模型都是文生视频、图生视频,无法实现这些手势交互效果。比如,对于模型来说,当人做出「捏」这个动作时,要读懂其中的意图,可要比读懂一段文字难得多。

另外,还存在数据稀缺的问题,对于整个 AI 行业来说,数据都足够重要却又极致稀缺,更何况是相对小众的「虚实融合交互数据」,生产成本高,构造难度极大。但现实又是,想要实现好的虚实融合的效果就必须基于大量且专业的高质量训练数据。

这些挑战一度让 Xmax AI 犯了难。

但需要注意的是,Xmax AI 是一支既懂底层算法,又懂工程化落地,还拥有敏锐产品嗅觉的「特种部队」。

创始人史佳欣,出身于华为「天才少年」计划,是一位典型的技术极客。联合创始人梁宸,现任港科大(广州)助理教授、博导。联合创始人翁跃庭,是一位「六边形战士」型的全栈工程师。而公司核心技术团队则都是来自清华大学 KEG 实验室和 HCI 实验室的人才,是国内大模型领域和人机交互领域的顶尖力量。

不仅如此,团队核心成员也大都在字节、快手、华为、阿里等头部 AI 大厂历练过,有着丰富的技术落地实践经验。

因此,面对上述这些挑战,Xmax AI 交出了一份「硬核」的技术答卷。

针对极致实时性需求,Xmax AI 进行架构创新,提出了端到端的流式重渲染视频模型架构,实现了帧级别的自回归 DiT(Diffusion Transformer),并通过多阶段的蒸馏压缩和对抗训练,百倍提升了每一帧画面的扩散采样速度。不仅将延迟压低至毫秒级,更是通过自研的「循环回归架构」打破了时长的限制,支持无限时长的连续生成。

针对模型对意图理解的高要求,Xmax.AI 则构建了统一的交互模型架构,让模型既能理解摄像头透视下的空间三维关系,也能理解屏幕触控下的平面二维操作,从而对于用户的各类交互行为,模型都能够实现精准的意图识别。

而针对「数据荒漠」难题,Xmax AI 则搭建了虚实融合数据的合成管线,利用半自动化方式,低成本、批量化地生成了高质量的交互训练数据,构建了难以复刻的行业壁垒。

体验了这么多玩法,相信大家已经隐约感知到 Xmax AI 想做的事情了。如果说 Sora 代表的是一条极致强化生成能力的路线,让 AI 学会拍电影、构图、运镜、叙事,那么 X1 则是希望 AI 能够陪你玩,随时出现在你周围的生活场景中。

从这个角度来看,对于 Xmax AI 团队而言,X1 模型仅仅是一个开始。

其实从前面 X1 的模型能力展现上也可以看出来,Xmax AI 不是想「再造」一个专业的视频创作工具,开发一款 App,更是在试图搭建下一代内容交互引擎,重新定义用户与 AI 生成内容之间的个性化交互方式。

在他们的愿景里,这个新时代中,那些曾经只能存在于影视作品和虚拟世界中的角色,不管是数码宝贝,还是银翼杀手式的仿生生命体,都可以走进现实,成为虚实融合的「数字生命体」,进入家庭,成为用户的虚拟陪伴、虚拟宠物等。

与此同时,「万物可交互」也不再只是一个空想,不管是刷短视频、看直播,还是视频通话、线上会议,都可以实时改变视觉形态,一边看一边玩,带来全新的个性化体验;社交互动变得更立体、更有趣,摄像头化身「精灵球」,随时随地「捕捉」一个好友过来,对 TA 进行打扮……

也就是说,Xmax AI 所做的,是通过 AI 将「幻想」拉得更近,近到可以触碰、互动、分享,真正融入人们的日常生活。

正如 Xmax AI Slogan 所言,Play the World through AI(用 AI 玩转世界),让世界触手可「玩」。

最后,感兴趣的朋友可以通过 testflight 邀请链接下载 APP,下载后在登录界面点击申请邀请码,也可以通过 Xmax AI 正式来提前体验、感受这一切。这一次,你可以亲自推开那扇通往虚实融合世界的「门」。

testflight 邀请链接:https://testflight.apple.com/join/8sWgKZeQXmax AI正式链接:https://xmax.ai/

文中视频链接:https://mp.weixin.qq.com/s/xnaOGvC5_EVYxsJYxVE_xQ

来源:https://www.163.com/dy/article/KLANJ2KB0511AQHO.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

OpenClaw人人养虾:接入Discord
AI
OpenClaw人人养虾:接入Discord

Discord接入:让OpenClaw成为你的社区智能管家 对于全球数亿的游戏玩家和社群爱好者来说,Discord几乎等同于线上“大本营”。那么,有没有可能让你精心搭建的Discord服务器也拥有一个聪明能干的AI助手呢?答案是完全可行。通过创建Discord Bot(机器人),你可以将OpenCl

热心网友
04.15
Claude强到不敢发的Mythos,被质疑用了字节Seed技术
AI
Claude强到不敢发的Mythos,被质疑用了字节Seed技术

Claude最强“神话”模型,可能用到来自字节的技术? 这条猜测直接冲上了热搜榜。 这款被形容为“强到不敢公开发布”的Mythos模型,确实极大地刺激了人们对下一代大语言模型架构的想象空间。 社区讨论的焦点,正集中在它是否采用了“循环语言模型”(Looped Language Model)这一创新架

热心网友
04.14
DeepSeek上线专家模式:国产AI激战正酣,V4能否复刻去年春节炸场?
科技数码
DeepSeek上线专家模式:国产AI激战正酣,V4能否复刻去年春节炸场?

国产大模型DeepSeek迎来重大更新:快速模式与专家模式上线 最新消息显示,国产AI大模型DeepSeek再次迎来重要升级。4月8日,用户在访问DeepSeek时发现,输入框上方新增了“快速模式”与“专家模式”两个选项。根据官方说明,快速模式专注于日常对话场景,响应速度快,同时支持图片和文件中的文

热心网友
04.14
OpenClaw人人养虾:接入飞书
AI
OpenClaw人人养虾:接入飞书

飞书接入指南:为你的团队嵌入一位AI同事 如果你身处国内互联网或科技行业,对飞书这款高效协作平台一定非常熟悉。如今,它已不仅是团队沟通工具,更成为众多企业的数字化工作中枢。那么,能否让团队成员在飞书内部,直接调用强大的AI智能助手来提升效率呢?答案是肯定的。本指南将手把手教你,如何将OpenClaw

热心网友
04.14
让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26
AI
让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26

面对复杂连续任务的长程规划,现有的生成式离线强化学习方法往往会暴露短板。它们生成的轨迹经常陷入局部合理但全局偏航的窘境。它们太关注眼前的每一步,却忘了最终的目的地。针对这一痛点,厦门大学和香港科技大

热心网友
04.07

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

这部双女主爽剧,太接地气了,建议收藏!
娱乐
这部双女主爽剧,太接地气了,建议收藏!

最新犯罪悬疑剧《暴锋雨》开播,尺度突破,双女主刑侦引爆话题。 双女主强势扛起刑侦大旗,油锯碎尸、树洞藏尸、活猪啃噬……一系列源于真实案件改编的惊悚罪案接连上演。那么,这场探案风暴的真正主导者究竟是谁?剧情又将如何展开? 犯罪悬疑剧《暴锋雨》深度解析 (以下剧情内容为艺术创作,请勿模仿。) 故事始于一

热心网友
04.26
《十日终焉》开机,肖战成绝对大男主,“第1季”是重要关键字
娱乐
《十日终焉》开机,肖战成绝对大男主,“第1季”是重要关键字

《十日终焉》开机:一场关于记忆、轮回与演技的豪赌 由肖战领衔主演,改编自同名小说的无限流悬疑剧《十日终焉》,终于正式官宣开机。消息一出,全网期待值拉满,相关话题讨论迅速升温。 影视改编与原著之间,向来难以划上绝对的等号。但这一次,情况尤为特殊。原著小说本身已是现象级作品:超过90万读者点评,拿下9

热心网友
04.26
《逐玉》遭批判、演唱会被质疑割韭菜、新剧扑街,内娱小花升咖难
娱乐
《逐玉》遭批判、演唱会被质疑割韭菜、新剧扑街,内娱小花升咖难

《逐玉》爆火后主演迎事业转折点,健康审美座谈会引行业反思 近期一场备受关注的健康审美座谈会虽未直接点名《逐玉》,但其探讨的议题却与观众对这部剧的诸多评价高度契合。座谈会提出的观点,几乎每一条都能对应上网友此前对剧集制作与演员表现的讨论焦点。 表面上看,近期舆论焦点多集中于男主角张凌赫的表现,但女主角

热心网友
04.26
这就是于凤至、赵四小姐真实的样貌,别被电视剧骗了,倾世的绝美
娱乐
这就是于凤至、赵四小姐真实的样貌,别被电视剧骗了,倾世的绝美

于凤至与赵四小姐:张学良生命中两位传奇女性的真实容貌与人生轨迹 在民国历史的璀璨星河中,少帅张学良无疑是备受瞩目的焦点人物。而他情感世界里的两位关键女性——原配夫人于凤至与相伴终老的赵四小姐(赵一荻),更是构成了这段历史中动人而复杂的一章。张学良最终选择与赵四小姐相守到老,而于凤至则默默付出、孤独等

热心网友
04.26
这一秒过火!虐穿民国!张凌赫×王楚然宿命感杀疯!未播先炸!
娱乐
这一秒过火!虐穿民国!张凌赫×王楚然宿命感杀疯!未播先炸!

凭借《逐玉》爆火出圈,张凌赫事业直接开挂,稳居当红小生前列! 随着事业势头一路高歌猛进,张凌赫的下一部影视作品自然成为全网关注的焦点。目前,他与王楚然联袂主演的民国虐恋大剧《这一秒过火》,早已未播先火,持续霸占各大社交平台热搜榜,引发观众热烈讨论。 市场的反响是最有力的证明:该剧在主流视频平台的预约

热心网友
04.26