智谱多模态开源周圆满落幕：四项视频生成核心技术全面开放

2025年12月12日 10:49·AIBase

多模态

视频生成

在刚刚结束的智谱多模态开源周中，智谱团队宣布开源四项针对视频生成的核心技术。这些技术不仅展示了智谱在多模态模型领域的最新进展，也为视频生成的未来发展奠定了坚实基础。

在过去一周内，智谱 GLM 团队先后发布了多种多模态模型，涵盖了视觉理解、设备操作和语音处理等领域。其中包括 GLM-4.6V 视觉理解模型、AutoGLM 设备控制模型、GLM-ASR 语音识别模型和 GLM-TTS 语音合成模型。这些技术的发布，旨在让大模型具备更接近人类的世界知识、记忆能力和复杂推理能力。

在开源周的最后一天，智谱团队推出了四项新技术:SCAIL、RealVideo、Kaleido 和 SSVAE，专注于解决视频生成领域的关键难题。这些技术涵盖了精细化可控生成、复杂时空结构建模和大规模训练成本控制等方面。

SCAIL 技术致力于影视级角色动画生成，能够精确控制复杂姿态，确保生成角色在运动中的结构完整性。RealVideo 则是一款实时流式视频生成系统，大幅减少了生成延迟，仅需2-3秒即可完成视频输出，使得与 AI 角色的对话变得更加自然和流畅。

Kaleido 技术专注于多主体视频生成，确保多个主体之间的一致性，避免了常见的特征混淆问题。而 SSVAE 则通过优化训练过程，提升了视频生成模型的训练效率，使得在相同质量下的收敛速度提高了三倍。

智谱团队表示，开源这些技术希望能够激发视频生成技术社区的创新，为开发者提供更多的工程方案和研究基础。同时，智谱期待与更多开发者共同探索人工智能的未来，推动通用人工智能（AGI）的实现。

划重点:
🌟 SCAIL:实现影视级角色动画生成，支持复杂姿态控制。
⚡ RealVideo:实时视频生成系统，生成延迟仅需2-3秒。
🎨 Kaleido:多主体视频生成框架，确保主体一致性，避免特征混淆。

智谱多模态开源周圆满落幕：四项视频生成核心技术全面开放

相关文章

昆仑万维 SkyReels-V3开源，实现多模态视频生成技术突破

蚂蚁集团开源全模态大模型Ming-Flash-Omni 2.0：多模态理解、图像编辑与语音生成全面提升

腾讯混元 OCR 模型宣布开源：参数仅 1B，多项核心能力 SOTA

智谱开源 GLM-OCR 模型：仅 0.9B 参数，多项基准取得 SOTA 表现

智谱 AI 输入法全新发布，语音识别技术同步开源!

智谱 GLM-4.6V 系列多模态 AI 大模型发布并开源，API 降价 50%

​智谱多模态开源周圆满落幕：四项视频生成核心技术全面开放

昆仑万维 SkyReels-V3开源，实现多模态视频生成技术突破

蚂蚁集团开源全模态大模型Ming-Flash-Omni 2.0：多模态理解、图像编辑与语音生成全面提升

腾讯混元 OCR 模型宣布开源：参数仅 1B，多项核心能力 SOTA

智谱开源 GLM-OCR 模型：仅 0.9B 参数，多项基准取得 SOTA 表现

智谱 AI 输入法全新发布，语音识别技术同步开源!

智谱 GLM-4.6V 系列多模态 AI 大模型发布并开源，API 降价 50%

智谱多模态开源周圆满落幕：四项视频生成核心技术全面开放