游乐游手机版
首页/科技数码/文章详情

京东推出全球首个全栈实时视频交互开源框架拓展实景AI应用边界

时间:2026-06-23 11:20
京东开源全球首个全栈实时视频视觉语言交互模型JoyAI-VL-Interaction,实现AI从“一问一答”到“边看边说”的进化,具备主动判断、实时响应和委托智能体能力,在监控预警等场景中胜率领先,拓展了实景AI应用边界。

人工智能领域近期迎来一项颇具突破性的新进展,引发了行业内的广泛关注与讨论。

试想一下这样的场景:火灾发生的瞬间,智能监控系统便能立即触发警报;独居老人在家中意外跌倒,AI能够第一时间通知远方的子女;视障人士佩戴智能眼镜出行时,设备可以实时描述周围环境、精准指引方向。这些曾被视为科幻电影情节的构想,在AI技术快速迭代的今天,正逐渐成为触手可及的日常生活。

近日,京东正式开源了全球首个全栈实时视频视觉语言交互模型——JoyAI-VL-Interaction。该模型的最大创新在于,它推动大模型从传统的“一问一答”交互模式,进化至“边看边聊”的实时主动交互形态。借助这一开发框架,开发者能够快速构建具备持续观察、自主决策与即时响应能力的实景AI助手。这标志着人工智能真正走出屏幕,开始在物理世界中发挥实质性作用。


首先需要澄清一个概念:目前市面上多数多模态模型仍停留在“一问一答”阶段——用户上传图片或视频后提出问题,模型再给出回答。这种模式在图文问答、视频复盘、内容分析等场景中确实足够实用,但当AI需要介入真实世界时,仅具备聪明才智远远不够,它还必须做到“实时在场”。现实世界的变化往往发生在电光火石之间,任何延迟或错过都可能导致无法挽回的后果。

JoyAI-VL-Interaction的核心价值在于,它让AI具备了像人类一样的持续“在场”能力:边观察、边记忆、边判断,并在关键时刻主动做出响应,或者有选择地将复杂任务委托给后台智能体。相较于传统模型,该方案实现了三大关键突破:

一是具备主动判断能力,而非被动等待回答。传统模型必须等待用户提问才能开始分析画面,而JoyAI-VL-Interaction能够持续监控视频流,自主判断何时该说话、何时该保持沉默。例如,你可以设置“当裁判出示红牌时提醒我”,它便会一直注视画面,在事件发生瞬间自动发出预警,完全无需你再次追问“刚才发生了什么”。

二是实现实时响应,而非事后复盘总结。传统的视频理解通常需要用户上传完整视频后才能进行分析,但在安防预警、实时翻译、直播解说、操作指导等场景中,延迟几秒钟带来的体验和价值差异将是天壤之别。JoyAI-VL-Interaction专注于处理正在发生的实时视频流,画面一旦发生变化,它便能立即跟上并做出反应。

三是能够适时委托智能体,同时保持观察与交互的连续性。这一能力尤为突出。当模型遇到需要生成代码、调用外部工具或进行复杂推理的任务时,它可以灵活地将这些工作交给后台大模型或智能体。前台模型继续专注于现场观察与交互,后台模型则处理复杂任务,待结果返回后自然融入对话。这更像是一套“前台实时助手+后台智能大脑”协同运作的系统:前台负责实时在场感知,后台负责处理繁重任务。这种协作模式,极有可能开启人工智能与人类协作的全新范式。

更值得关注的是,京东此次开源的并不仅仅是一个模型,而是一整套完整的系统解决方案。

在实时视频流处理过程中,JoyAI-VL-Interaction每秒都会进行一次自主判断:决定是继续观察、保持沉默,还是发现关键事件后主动响应,或是将复杂任务转交给后台智能体。这意味着,“何时说话”不再依赖外部规则或定时触发,而是成为模型自身通过学习获得的内在能力。

对于实时交互而言,懂得何时说话固然重要,但懂得何时保持沉默同样关键。一个优秀的AI助手,不应持续打扰用户,而应精准判断何时该出现、何时该安静,以及何时自主解决问题、何时交由智能体处理。

许多开源模型仅提供基础的推理能力,开发者若想真正投入使用,还需自行处理视频接入、语音交互、记忆管理、前后端协同等一系列工程难题。而JoyAI-VL-Interaction开源的是完整的技术栈,涵盖模型权重、交互数据集、训练方案以及可直接部署的系统。换言之,开发者拿到后即可直接使用,极大缩短了从模型研究到真实场景落地的距离。

该模型还支持摄像头、直播流、监控流等多种视频输入方式,同时提供语音输入输出、可视化界面、长期记忆能力、后台模型接口以及vLLM部署方案。ASR、TTS、可视化界面、后台模型、外部工具以及业务模块均可按需灵活替换。开发者能够自由接入自己的语音服务、智能体、API、业务系统或前端界面。

因此,JoyAI-VL-Interaction并非一个封闭的产品,而是一套高度开放的框架。它既可以用于学术研究,也可以灵活改造为安防监控、老人儿童看护、直播讲解、电商导购、操作指导、AI眼镜、无障碍辅助等各类实时AI助手应用。

在评测中,JoyAI-VL-Interaction全面覆盖了监控预警、实时计数、实时翻译、时间感知、直播导览解说等真实流式场景。在58个与视觉触发主动响应、实时性高度相关的真人盲评案例中,它对比豆包视频通话助手总体胜率达到77.6%,对比Gemini视频通话助手总体胜率则高达87.9%。尤其在监控预警场景中,它对两个基线均取得了100%的胜率。这一出色表现背后,源于交互模型相较于传统“一问一答”回合制模型的天然优势:自主交互性内嵌于模型本身,而非依赖外部触发机制。


今年以来,京东在模型基础设施建设方面成果显著。3月,开源了基础大模型JoyAI-LLM Flash的Instruct版本,打破了行业在大模型参数规模上的内卷僵局;4月,开源了图像模型JoyAI-Image-Edit,其空间理解与编辑能力达到世界一流水平;6月3日,又开源了长视频生成模型JoyAI-Echo,推动长视频生成进入“所想即所得”的时代。这一系列动作,标志着京东在上述领域已成功跻身全球第一梯队。

从“一问一答”到“边看边记边回应”,从离线视频理解到实时流式交互,从屏幕内的AI到物理世界中的AI——JoyAI-VL-Interaction的全栈开源,是京东将人工智能从数字世界推向物理世界的又一重要里程碑。

京东深耕零售、物流、健康、工业等实体产业二十余年,拥有全球领先的物理世界运营网络,覆盖仓储、配送、门店、直播、客服、售后等海量真实场景。每天都有大量人、货、场的实时互动在发生。对AI而言,这些并非抽象数据,而是进入物理世界的天然训练场和应用场景,同时也为京东打造“全球最大物理世界运营中心”提供了坚实保障。展望未来,京东是否会让人工智能从千行百业走进千家万户?从当前的发展势头来看,这一可能性正变得越来越大。

来源:https://www.163.com/dy/article/L02CRRCC0550WHYR.html
上一篇国产公务机商业运营 上海飞北京包机18.8万元 下一篇中科院沈阳自动化所先看图后思考提升视觉问答诚实性
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
多点触控技术实际应用案例分享
科技数码 · 2026-06-30

多点触控技术实际应用案例分享

多点触控技术借助电容或光学感应实现多指同时识别,重塑了移动设备交互、创意设计、教育协作及零售公共服务等场景,未来将与增强现实、智能家居等技术深度融合,使人机交互更自然高效。

MultiTouch多点触控全面教程指南:从入门到实际使用
科技数码 · 2026-06-30

MultiTouch多点触控全面教程指南:从入门到实际使用

多点触控技术使屏幕同时识别多指操作,涉及传感、坐标追踪和手势识别。基础手势如双指缩放、旋转及多指滑动提升效率。在创意软件中实现画布控制与参数调节,游戏带来沉浸式操控。保持屏幕清洁、用指腹触碰可优化体验。

Lily Camera无人机空中拍摄真实应用案例与心得分享
科技数码 · 2026-06-30

Lily Camera无人机空中拍摄真实应用案例与心得分享

LilyCamera是一款无需遥控器的抛飞式自拍无人机,通过视觉与GPS追踪实现自动跟拍,瞄准运动与旅行场景。但因技术、供应链和资金问题未能量产。其概念推动了行业跟拍功能发展,强调用户体验简化与工程务实的平衡。

Lily相机使用中常见问题解决方法
科技数码 · 2026-06-30

Lily相机使用中常见问题解决方法

使用中遇到开不了机、连不上或画质模糊等问题,可先充满电、重启设备、检查镜头及App版本。续航下降可调整高耗电设置,充不进电需用原装配件并清理接口。定期更新固件与应用能解决多数故障,官方支持与用户论坛可获取进一步帮助。

Lily Camera从入门到实际使用的完整详细教程指南
科技数码 · 2026-06-30

Lily Camera从入门到实际使用的完整详细教程指南

LilyCamera是一款抛飞即用的自动跟拍相机,通过计算机视觉与GPS追踪技术,配合腕带追踪器实现无需遥控器的极简操作。其理念影响了后续消费级无人机和运动相机的视觉跟踪系统发展。适用于跑步、骑行等动态场景,充分体现了对用户使用场景的深刻洞察。