京东推出全球首个全栈实时视频交互开源框架拓展实景AI应用边界

时间：2026-06-23 11:20

京东开源全球首个全栈实时视频视觉语言交互模型JoyAI-VL-Interaction，实现AI从“一问一答”到“边看边说”的进化，具备主动判断、实时响应和委托智能体能力，在监控预警等场景中胜率领先，拓展了实景AI应用边界。

人工智能领域近期迎来一项颇具突破性的新进展，引发了行业内的广泛关注与讨论。

试想一下这样的场景：火灾发生的瞬间，智能监控系统便能立即触发警报；独居老人在家中意外跌倒，AI能够第一时间通知远方的子女；视障人士佩戴智能眼镜出行时，设备可以实时描述周围环境、精准指引方向。这些曾被视为科幻电影情节的构想，在AI技术快速迭代的今天，正逐渐成为触手可及的日常生活。

近日，京东正式开源了全球首个全栈实时视频视觉语言交互模型——JoyAI-VL-Interaction。该模型的最大创新在于，它推动大模型从传统的“一问一答”交互模式，进化至“边看边聊”的实时主动交互形态。借助这一开发框架，开发者能够快速构建具备持续观察、自主决策与即时响应能力的实景AI助手。这标志着人工智能真正走出屏幕，开始在物理世界中发挥实质性作用。

首先需要澄清一个概念：目前市面上多数多模态模型仍停留在“一问一答”阶段——用户上传图片或视频后提出问题，模型再给出回答。这种模式在图文问答、视频复盘、内容分析等场景中确实足够实用，但当AI需要介入真实世界时，仅具备聪明才智远远不够，它还必须做到“实时在场”。现实世界的变化往往发生在电光火石之间，任何延迟或错过都可能导致无法挽回的后果。

JoyAI-VL-Interaction的核心价值在于，它让AI具备了像人类一样的持续“在场”能力：边观察、边记忆、边判断，并在关键时刻主动做出响应，或者有选择地将复杂任务委托给后台智能体。相较于传统模型，该方案实现了三大关键突破：

一是具备主动判断能力，而非被动等待回答。传统模型必须等待用户提问才能开始分析画面，而JoyAI-VL-Interaction能够持续监控视频流，自主判断何时该说话、何时该保持沉默。例如，你可以设置“当裁判出示红牌时提醒我”，它便会一直注视画面，在事件发生瞬间自动发出预警，完全无需你再次追问“刚才发生了什么”。

二是实现实时响应，而非事后复盘总结。传统的视频理解通常需要用户上传完整视频后才能进行分析，但在安防预警、实时翻译、直播解说、操作指导等场景中，延迟几秒钟带来的体验和价值差异将是天壤之别。JoyAI-VL-Interaction专注于处理正在发生的实时视频流，画面一旦发生变化，它便能立即跟上并做出反应。

三是能够适时委托智能体，同时保持观察与交互的连续性。这一能力尤为突出。当模型遇到需要生成代码、调用外部工具或进行复杂推理的任务时，它可以灵活地将这些工作交给后台大模型或智能体。前台模型继续专注于现场观察与交互，后台模型则处理复杂任务，待结果返回后自然融入对话。这更像是一套“前台实时助手+后台智能大脑”协同运作的系统：前台负责实时在场感知，后台负责处理繁重任务。这种协作模式，极有可能开启人工智能与人类协作的全新范式。

更值得关注的是，京东此次开源的并不仅仅是一个模型，而是一整套完整的系统解决方案。

在实时视频流处理过程中，JoyAI-VL-Interaction每秒都会进行一次自主判断：决定是继续观察、保持沉默，还是发现关键事件后主动响应，或是将复杂任务转交给后台智能体。这意味着，“何时说话”不再依赖外部规则或定时触发，而是成为模型自身通过学习获得的内在能力。

对于实时交互而言，懂得何时说话固然重要，但懂得何时保持沉默同样关键。一个优秀的AI助手，不应持续打扰用户，而应精准判断何时该出现、何时该安静，以及何时自主解决问题、何时交由智能体处理。

许多开源模型仅提供基础的推理能力，开发者若想真正投入使用，还需自行处理视频接入、语音交互、记忆管理、前后端协同等一系列工程难题。而JoyAI-VL-Interaction开源的是完整的技术栈，涵盖模型权重、交互数据集、训练方案以及可直接部署的系统。换言之，开发者拿到后即可直接使用，极大缩短了从模型研究到真实场景落地的距离。

该模型还支持摄像头、直播流、监控流等多种视频输入方式，同时提供语音输入输出、可视化界面、长期记忆能力、后台模型接口以及vLLM部署方案。ASR、TTS、可视化界面、后台模型、外部工具以及业务模块均可按需灵活替换。开发者能够自由接入自己的语音服务、智能体、API、业务系统或前端界面。

因此，JoyAI-VL-Interaction并非一个封闭的产品，而是一套高度开放的框架。它既可以用于学术研究，也可以灵活改造为安防监控、老人儿童看护、直播讲解、电商导购、操作指导、AI眼镜、无障碍辅助等各类实时AI助手应用。

在评测中，JoyAI-VL-Interaction全面覆盖了监控预警、实时计数、实时翻译、时间感知、直播导览解说等真实流式场景。在58个与视觉触发主动响应、实时性高度相关的真人盲评案例中，它对比豆包视频通话助手总体胜率达到77.6%，对比Gemini视频通话助手总体胜率则高达87.9%。尤其在监控预警场景中，它对两个基线均取得了100%的胜率。这一出色表现背后，源于交互模型相较于传统“一问一答”回合制模型的天然优势：自主交互性内嵌于模型本身，而非依赖外部触发机制。

今年以来，京东在模型基础设施建设方面成果显著。3月，开源了基础大模型JoyAI-LLM Flash的Instruct版本，打破了行业在大模型参数规模上的内卷僵局；4月，开源了图像模型JoyAI-Image-Edit，其空间理解与编辑能力达到世界一流水平；6月3日，又开源了长视频生成模型JoyAI-Echo，推动长视频生成进入“所想即所得”的时代。这一系列动作，标志着京东在上述领域已成功跻身全球第一梯队。

从“一问一答”到“边看边记边回应”，从离线视频理解到实时流式交互，从屏幕内的AI到物理世界中的AI——JoyAI-VL-Interaction的全栈开源，是京东将人工智能从数字世界推向物理世界的又一重要里程碑。

京东深耕零售、物流、健康、工业等实体产业二十余年，拥有全球领先的物理世界运营网络，覆盖仓储、配送、门店、直播、客服、售后等海量真实场景。每天都有大量人、货、场的实时互动在发生。对AI而言，这些并非抽象数据，而是进入物理世界的天然训练场和应用场景，同时也为京东打造“全球最大物理世界运营中心”提供了坚实保障。展望未来，京东是否会让人工智能从千行百业走进千家万户？从当前的发展势头来看，这一可能性正变得越来越大。

来源：https://www.163.com/dy/article/L02CRRCC0550WHYR.html

上一篇国产公务机商业运营上海飞北京包机18.8万元 下一篇中科院沈阳自动化所先看图后思考提升视觉问答诚实性

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

京东推出全球首个全栈实时视频交互开源框架拓展实景AI应用边界

相关推荐

同类最新

多点触控技术实际应用案例分享

MultiTouch多点触控全面教程指南：从入门到实际使用

Lily Camera无人机空中拍摄真实应用案例与心得分享

Lily相机使用中常见问题解决方法

Lily Camera从入门到实际使用的完整详细教程指南