拒绝“一问一答”:京东开源实时视频交互模型 JoyAI-VL-Interaction
2026年6月22日 17:24·AIBase
在人工智能迈向实时交互的浪潮中,京东正式开源了其核心成果——实时视频视觉语言交互模型 JoyAI-VL-Interaction。作为全球首个全栈开源的交互式视觉模型,该系统不仅获得了 vLLM-Omni 的深度支持,更标志着 AI 助手正式从传统的“被动响应”转向“边看边说”的自主观察模式。
相比于过去需要等待用户提问才开始处理画面的滞后模式,JoyAI-VL-Interaction 展现出了极高的主动性。它具备持续观察视频流的能力,能够智能判断何时应当介入交流,何时应当保持沉默,从而在互动中提供更加自然、流畅的体验。

这种实时响应能力的提升,对于处理动态信息至关重要。传统的视频理解技术往往受限于“先上传、后分析”的流程,在实时性要求极高的安防监控、直播解说或操作指导等场景中,往往难以满足需求。JoyAI-VL-Interaction 能够面向正在发生的视频流进行即时处理,真正实现了画面变化与智能响应的同步。
更具技术亮点的是其“后台委托”机制。在面对生成代码、复杂推理或工具调用等高难度任务时,模型可以灵活地将任务分流给后台的 Agent 系统,而前台模型则继续保持对现场的实时观察。这种“观察与交互”并行的工作流,使得 AI 助手在执行复杂逻辑的同时,依然能维持与用户的无缝沟通。
在兼容性与扩展性方面,该模型支持摄像头、直播流及各类监控信号等多种视频输入源,并允许开发者根据业务需求,灵活替换 ASR、TTS、长期记忆模块或外部 API 接口。
根据京东公布的盲评测试数据,在涵盖监控预警、实时翻译、时间感知等58个流式场景的真人测评中,JoyAI-VL-Interaction 的表现相当出色,其总体胜率不仅大幅领先同类产品,更在复杂视觉触发的交互中展现了显著优势。无论是针对科研探索,还是面向安防监控、电商导购、AI 眼镜等产业级应用,这一开源方案都为开发者提供了一套极具竞争力的技术基座。

