首页 游戏 软件 资讯 排行榜 专题
首页
AI
京东直播新动作:刚需复杂指令与自由态数字人如何升级

京东直播新动作:刚需复杂指令与自由态数字人如何升级

热心网友
53
转载
2026-03-31



编辑|泽南

刚刚落幕的 2026 科技界「春晚」GTC 大会上,一个全行业的共识已经形成:AI 正在进入智能体(Agent)时代。

然而,当各大厂商都在疯狂入局智能体时,一个尴尬的现实却摆在面前:这些聪明的数字大脑,缺少一个「灵动」的「躯壳」。如果说「龙虾」OpenClaw 已经为 AI 智能体工作的范式打开了方向,那么解决 AI 怎么和人打交道的交互领域,技术还面临着挑战。

因涉及多个模态的转换,为聪明的 AI 打造一副高表现力的「躯壳」,比想象中还要困难得多。

直到最近,京东数字人的一系列新研究打破了这一僵局。

京东 JoyAvatar 和 JoyAvatar-Flash 两个数字人大模型,解决行业长期存在的文本指令控制力弱、多模态控制信号冲突、长时长生成能力不足等痛点问题,实现了长时长、自由态、实时互动的数字人生成效果,相关成果发表在了 arXiv 上,新一代数字人的性能全面超越了当前 SOTA 模型,将效果推向了新的高度。

论文链接:https://arxiv.org/pdf/2602.00702,https://arxiv.org/abs/2512.11423技术主页:https://joyavatar.github.io/

它具有超强的文本控制能力:



提示词:A little girl is first singing with a beaming smile, then she picks up a camera from the table, points it toward the viewer, and the flash goes of.



提示词:A woman stands indoors, speaking to the camera. She begins by picking up a vase from a cabinet, then gazes at it contemplatively, and finally places it on a chair within the scene. (Keep the character fully in frame throughout.)

可以实现分钟级时长的数字人合成:



京东 JoyAvatar 系列数字人模型有打破僵局的意义,展现出了代差级别的优势,彻底告别了数字人「站桩式播报」:它不仅能精准理解「复杂指令」,丝滑做出全身复杂动作,还能完美配合动态镜头轨迹以及背景的无缝变化。更绝的是,哪怕是在这种大幅度、剧烈运动的过程中,它依然能保持唇形与输入音频的完美同步。

输入指令「拿起巧克力吃掉」京东数字人能够根据文本提示词,流畅地完成整套抓取和咀嚼动作:



提示词:The girl picks up the chocolate box, shows it to the viewer, then takes out a piece of chocolate and eats it.

输入指令「放下手中的箱子」京东数字人不仅能平滑处理复杂的动作指令与背景流转,还能在超过 20 秒的视频生成中保持人物身份的稳定:



提示词:A man in the frame speaks to the camera while placing a toolbox on the ground, then climbs a ladder, keeping himself within the shot. He wears a white safety helmet, holds a black and yellow toolbox, with a room under renovation behind him. A ladder and a level are placed nearby.

京东数字人的三大技术创新

在生成式 AI 领域,数据是让模型学习和理解的原材料。但收集大量既有剧烈肢体运动、又有清晰语音播报的高质量视频数据,其成本是极其高昂的。面对静态播报数据的天然偏见,京东数字人团队转向了一条更为新颖的路径:双教师 DMD(分布匹配蒸馏)后训练



图 1 双教师 DMD 后训练框架图



图 2 数字人模型预训练框架图

研究人员给数字人模型请来两位「老师」,其中一位是「音频教师」,由数字人基础模型担任,专攻口型和节奏;另一位则是「文本教师」,引入了视频基础大模型。由于视频生成模型具备不错的文本到视频生成能力,能够完美理解复杂的动作指令,通过这种分离式监督、融合式学习的蒸馏机制,数字人模型在不增加任何新训练数据的前提下,直接继承了其文本可控性。

让数字人既要听从剧本做出复杂动作,又要严丝合缝地对口型,在过去是一个难以兼顾的任务。因为在模型的潜在空间里,文本信号和音频信号常常会相互打架 —— 文本要主导全身动作,音频要主导面部肌肉,两者一旦冲突,画面就会崩溃失真。

为了解决这个多模态控制冲突,团队创新性地提出了「动态 CFG 调制策略」

研究人员发现,扩散模型在生成视频时,全局的动作框架是在早期的高噪声阶段确定的,而口型这种细粒度的细节,是在后期的低噪声阶段雕琢出来的。所以数字人模型让两种信号「错峰出行」:在生成早期,模型优先听文本的指令,先把跑跳、转身等动作框架搭好。到了生成中后期,模型再把控制权优先交给音频,保证唇形同步。

这种巧妙的设计,让文本和音频两种控制模态各司其职,互不干扰。

接下来还有一个更加面向实际的挑战。数字人需要长时间直播,而对于 AI 的长视频生成而言,最大的挑战在于「身份漂移」—— 人物说着说着,脸或者衣服就变样了。

JoyAvatar 给出的解法是历史帧编码模块(FramePack)+ 伪最后一帧策略。在推理过程中,模型不断将用户的参考图像作为「伪最后一帧」注入模型,就像给模型定了一个永远不会偏离的锚点。这使得数字人模型能够支持 30 秒以上的长视频生成,全程保持身份稳定、动作流畅,彻底打破了传统数字人模型帧闪烁、时长受限的短板。

为验证技术领先性,京东数字人团队将 JoyAvatar 模型(Ours)与业界主流 SOTA 闭源模型进行了主观 GSB 评分对比。结果显示,JoyAvatar 在文本遵从、唇形准确度、ID 保持、视频画质等核心维度均表现显著优势,整体 GSB 评分分别达到 1.36(超 omnihuman-1.5)与 1.73(超 KlingAvatar2.0),技术实力得到权威验证。(GSB计算方式: GSB=(Good+Same)/(Bad+Same))



图 3 JoyAvatar 模型实验结果

与此同时,京东数字人团队还在数字人模型的推理速度优化上做出了大量创新性设计,推出了 JoyAvatar-Flash 版本(https://arxiv.org/abs/2512.11423)。首先基于通过 CausVid 和 Self Forcing 等技术将双向模型蒸馏成自回归单向模型,并通过 4 步采样、kv-cache 和多 GPU 并行推理实现 30FPS 的生成速度。

研究团队还提出了渐进步数引导、运动条件注入、基于 cache 重置的无限 RoPE 等创新点,实现实时流式生成无限时长的高保真数字人视频,并在视觉质量、时序一致性与唇形同步等方面表现卓越。

场景与商业化

让中小商家用得起「数字人直播」

底层技术一旦捅破了天花板,广阔的应用想象力就彻底打开了。数字人直播作为核心商业场景率先迎来体验升级:无论是 7x24 小时连轴转的电商直播带货,还是需要极强表现力的电商短视频,整体内容形态与交互体验都将实现质的升级。

随着本次长时长、自由态、实时互动技术的突破,京东数字人的第一块试金石就是京东自己的核心业务 —— 数字人直播。

从引爆全网的「采销东哥」数字人,到海尔、格力等一众总裁数字人在直播间挑起大梁,再到对微表情和肢体动作要求极高的 Vivi 明星数字人,京东数字人早已在直播场景中完成了多轮实战验证,不断打磨高表现力的直播交互能力。去年更是推出了「JoyAI 零帧起手」小程序,实现了万物皆可说,让每一个普通用户也能「玩起来」,真正把硬核的 AI 技术变成了全民皆可玩的生产力工具。

结合新技术,京东数字人 JoyStreamer (产品名称)在行业内率先推出「自由态数字人」,针对家电家居、时尚服饰等五大行业推出精准适配的数字人,支持自然走动、灵活摆姿,镜头跟随、出画入画流畅,脸部遮挡也能保持高保真质感,实现了更加自然灵动的交互形态。



「自由态数字人」直播间

对于普通用户来说,新一代数字人主播可以在直播间走动,展示商品局部细节,甚至能进行多主播的复杂互动,这让直播更加有趣了;而对于电商来说,这种视觉表现力上的质变,直接拉长了用户的停留时长。

京东打造了低门槛的数字人平台。对于数量最多的中小商家而言,一听到「影视级」、「高表现力」这样的词汇,第一反应往往是用不起,这恰恰是 JoyStreamer 最大的商业杀手锏:京东的数字人直播能力目前免费开放,商家可以在自己的后台进行一键配置,自定义模型,或是一比一还原真人主播的声音。

基于此,JoyStreamer 推出的「数字人直播间复刻」能力,帮助商家最大化沉淀直播资产商家仅需上传一段真人直播视频素材,就可以快速生成一个形象、声线、神态、直播间布景上都与真人主播高度一致的「数字分身」,将单次成功直播转化为可长期复用的数字人直播资产。

新秀丽正是通过「直播间复刻」能力实现长期稳定开播,带来公域流量提升超 60%,直播间人均停留时长近 2 分钟,充分验证了该功能的商业价值。



在京东的平台上,数字人与真人的直播是同场 pk 的,流量竞争正在推动数字人技术持续提升。每一次技术的升级迭代,包括数字人、语音、多模态能力,都能获得几万商家的深度应用和反馈。

目前,京东数字人 JoyStreamer 已服务超 7 万家商家,规模行业领先,几乎覆盖京东全品类,数字人直播成为越来越多商家的标配选择。高表现力的数字人主播正从「尝鲜工具」转变为拉动 GMV 的核心增长引擎。

京东 AI 的「护城河」

环顾当下的全球 AI 竞争格局,不难发现:整个行业正陷入一场烧钱的「算力军备竞赛」。

面对快速显现的需求与前沿 AI 能力的探索,京东此刻却显得更加冷静。京东相关负责人表示,大模型的发展必须从参数至上的旧范式,彻底转向效率、成本与性能平衡的新范式。

这种克制与平衡的技术哲学,不仅体现在数字人身上,也贯穿于京东大模型的整体布局。以京东近期开源的通用基础大模型 JoyAI-LLM Flash 为例,这款模型的总参数量为 480 亿,在实际运行中通过动态稀疏路由技术只激活 3B 的参数,智能体任务的 token 消耗量只有竞品模型的 1/5,并获得了很好的效果。

在庞大的 AI 应用端,大模型的知识广度,必须配合极低的推理成本和极快的响应速度,才能完美契合产业界对于经济与效果的诉求。

作为一家新型实体企业,京东拥有零售、物流、健康、工业等丰富的真实业务场景,同时具备可观的数字技术和能力。目前,京东的 AI 技术已经深度融入自身的超级供应链,在超过 2000 个具体的业务场景中落地生根。

JoyStreamer 之所以能迅速迭代出高表现力的数字人直播能力,正是因为每天有数以万计的商家在直播间里提需求、做反馈。这种基于真实商业场景的数据飞轮,是很多技术公司难以比拟的。

最后,我们都好奇数字人的下一步是什么。京东的技术负责人表示,让数字人直播间内的主播学会换装、实现更丰富的跨主播互动,并最终实现零幻觉是他们努力的方向。目前在行业里,还没有任何一个团队解决了这些问题。

在京东的直播间里,这些富有表现力的数字躯壳还在快速成长,属于京东 AI 的这场产业突围战,才刚刚拉开序幕。

文中视频链接:https://mp.weixin.qq.com/s/GW3HL1HqbXl0LVj8BR-vtA

来源:https://www.163.com/dy/article/KPBSE6CK0511AQHO.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

OBS Studio 32.1新版发布音频混音器重构并支持WebRTC联播
电脑教程
OBS Studio 32.1新版发布音频混音器重构并支持WebRTC联播

直播串流软件 OBS Studio 32 1 发布:重构音频混音器、支持 WebRTC 联播 3 月 12 日,视频录制与直播串流领域的标杆软件 OBS Studio 迎来了版本 32 1 的更新。距离上一个重量级版本发布已过去约半年时间,这次更新带来的不仅仅是功能清单上的条目增加,更包含了几项足以

热心网友
05.09
网警严查“斗狠”类直播:13人被行拘 相关账号被封
科技数码
网警严查“斗狠”类直播:13人被行拘 相关账号被封

网警严查“斗狠”类直播:13人被行拘 相关账号被封 4月30日,一则来自《人民日报》的报道,揭开了网络直播中一个亟待整治的阴暗角落。浙江公安网安部门近日成功破获了一起跨区域的低俗直播“斗狠”案件,一举抓获涉案人员13名,相关账号也已被全部封禁。 事情是怎么被发现的?原来,浙江公安网安部门在日常工作中

热心网友
04.30
《浪姐7》高开低走!选组分上下集还要SVIP,网友要求退会员被拒
娱乐
《浪姐7》高开低走!选组分上下集还要SVIP,网友要求退会员被拒

芒果台王牌综艺《乘风破浪的姐姐》历经更名与冠名调整,如今已步入第六年,《乘风2026》作为《浪姐》第七季,凭借直播话题再度引爆网络,展现节目组持续打造爆款综艺的深厚功力。 然而,《浪姐》系列似乎始终难逃一个收视魔咒:高开低走。几乎每一季都是开播即巅峰,后续热度逐渐下滑。来到《浪姐7》,初舞台直播的热

热心网友
04.29
张婉婷开直播曝光未离婚原因,只因宋宁峰情绪崩溃,几乎一无所有
娱乐
张婉婷开直播曝光未离婚原因,只因宋宁峰情绪崩溃,几乎一无所有

老公出轨全网皆知,正宫张婉婷却坚决不离婚 最近一场直播,三小时卖了600万,但她说这不是为了赚钱,而是因为家里真的揭不开锅了。更关键的是,老公宋宁峰情绪崩溃到“随时可能跳楼”,她得一边卖货一边盯着他别做傻事。这局面,任谁看了都得叹一句:现实远比剧本更残酷。 丑闻曝光与公开致歉 时间回到2026年3月

热心网友
04.29
《乘风》直播太抓马!倪萍道歉,瞿颖哭到差点弃票,主持控不住场
娱乐
《乘风》直播太抓马!倪萍道歉,瞿颖哭到差点弃票,主持控不住场

《乘风2026》初舞台下半场:失控现场与高能表演的戏剧性碰撞 若要精准概括《乘风2026》初舞台下半场的直播实况,最贴切的描述莫过于:热度爆表,场面也一度濒临失控。正如众多网友所感叹的——“现场快乱成一锅粥了”。此起彼伏的道歉声与哽咽声交织,主持人虽面露焦急却难以掌控全局。万幸的是,各位姐姐凭借过硬

热心网友
04.29

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

数字货币基本面分析指南:评估价值与潜力的关键指标
web3.0
数字货币基本面分析指南:评估价值与潜力的关键指标

分析数字货币基本面需从项目愿景、技术架构、经济模型及团队背景等多维度入手。核心在于评估其解决实际问题的能力、技术实现的可靠性以及代币经济的可持续性。这要求投资者深入研究白皮书、代码进展、社区生态和治理机制,而非仅关注价格波动。基本面分析是理解项目长期价值、识别潜在风险的关键方法。

热心网友
05.17
虚拟币基本面分析指南:如何评估加密货币价值
web3.0
虚拟币基本面分析指南:如何评估加密货币价值

虚拟币基本面分析需关注项目技术架构、代币经济模型、团队背景与社区生态。技术层面评估共识机制、可扩展性与安全性;经济模型分析代币分配、通胀机制与实际效用;团队与社区则考察开发能力、治理透明度及用户活跃度。综合这些维度,可更客观判断项目的长期价值与风险。

热心网友
05.17
什么是代币?代币在区块链中的核心作用与用途详解
web3.0
什么是代币?代币在区块链中的核心作用与用途详解

Tokens:数字世界的“多功能凭证” 简单来说,Tokens是一种基于现有区块链技术发行的数字凭证。你可以把它想象成数字世界里的“积分”或者“股票”,它代表着某种权利、价值或功能。 2025年虚拟货币主流交易所: 币安: 欧易: 火币: Tokens到底是什么? 从技术层面看,Tokens并非独立

热心网友
05.17
加密货币投资指南:基本面分析入门与实战技巧
web3.0
加密货币投资指南:基本面分析入门与实战技巧

加密货币基本面分析着眼于评估数字资产的长期价值,而非短期价格波动。它主要考察项目愿景、技术架构、代币经济模型、团队背景及社区生态等核心要素。通过分析这些内在因素,投资者可以更理性地判断一个项目是否具备可持续的竞争力与发展潜力,从而做出更明智的投资决策。

热心网友
05.17
Anthropic封杀Claude用户事件解读 公司数据安全如何保障
AI
Anthropic封杀Claude用户事件解读 公司数据安全如何保障

周一清晨,一家拥有110名员工的农业科技公司,全体员工突然发现自己的Claude账户无法登录。这并非个别现象,而是全员遭遇。从Slack运维频道出现第一张截图开始,短短十分钟内,整个公司都在询问同一个问题:我的Claude出什么问题了? 答案很快揭晓——问题不在用户,而是Anthropic对所有账号

热心网友
05.17