拒绝“一问一答”：京东开源实时视频交互模型 JoyAI-VL-Interaction

2026年6月22日 17:24·AIBase

在人工智能迈向实时交互的浪潮中，京东正式开源了其核心成果——实时视频视觉语言交互模型 JoyAI-VL-Interaction。作为全球首个全栈开源的交互式视觉模型，该系统不仅获得了 vLLM-Omni 的深度支持，更标志着 AI 助手正式从传统的“被动响应”转向“边看边说”的自主观察模式。

相比于过去需要等待用户提问才开始处理画面的滞后模式，JoyAI-VL-Interaction 展现出了极高的主动性。它具备持续观察视频流的能力，能够智能判断何时应当介入交流，何时应当保持沉默，从而在互动中提供更加自然、流畅的体验。

这种实时响应能力的提升，对于处理动态信息至关重要。传统的视频理解技术往往受限于“先上传、后分析”的流程，在实时性要求极高的安防监控、直播解说或操作指导等场景中，往往难以满足需求。JoyAI-VL-Interaction 能够面向正在发生的视频流进行即时处理，真正实现了画面变化与智能响应的同步。

更具技术亮点的是其“后台委托”机制。在面对生成代码、复杂推理或工具调用等高难度任务时，模型可以灵活地将任务分流给后台的 Agent 系统，而前台模型则继续保持对现场的实时观察。这种“观察与交互”并行的工作流，使得 AI 助手在执行复杂逻辑的同时，依然能维持与用户的无缝沟通。

在兼容性与扩展性方面，该模型支持摄像头、直播流及各类监控信号等多种视频输入源，并允许开发者根据业务需求，灵活替换 ASR、TTS、长期记忆模块或外部 API 接口。

根据京东公布的盲评测试数据，在涵盖监控预警、实时翻译、时间感知等58个流式场景的真人测评中，JoyAI-VL-Interaction 的表现相当出色，其总体胜率不仅大幅领先同类产品，更在复杂视觉触发的交互中展现了显著优势。无论是针对科研探索，还是面向安防监控、电商导购、AI 眼镜等产业级应用，这一开源方案都为开发者提供了一套极具竞争力的技术基座。