智谱多模态开源周圆满落幕:四项视频生成核心技术全面开放
2025年12月12日 10:49·AIBase
在刚刚结束的智谱多模态开源周中,智谱团队宣布开源四项针对视频生成的核心技术。这些技术不仅展示了智谱在多模态模型领域的最新进展,也为视频生成的未来发展奠定了坚实基础。
在过去一周内,智谱 GLM 团队先后发布了多种多模态模型,涵盖了视觉理解、设备操作和语音处理等领域。其中包括 GLM-4.6V 视觉理解模型、AutoGLM 设备控制模型、GLM-ASR 语音识别模型和 GLM-TTS 语音合成模型。这些技术的发布,旨在让大模型具备更接近人类的世界知识、记忆能力和复杂推理能力。

在开源周的最后一天,智谱团队推出了四项新技术:SCAIL、RealVideo、Kaleido 和 SSVAE,专注于解决视频生成领域的关键难题。这些技术涵盖了精细化可控生成、复杂时空结构建模和大规模训练成本控制等方面。
SCAIL 技术致力于影视级角色动画生成,能够精确控制复杂姿态,确保生成角色在运动中的结构完整性。RealVideo 则是一款实时流式视频生成系统,大幅减少了生成延迟,仅需2-3秒即可完成视频输出,使得与 AI 角色的对话变得更加自然和流畅。
Kaleido 技术专注于多主体视频生成,确保多个主体之间的一致性,避免了常见的特征混淆问题。而 SSVAE 则通过优化训练过程,提升了视频生成模型的训练效率,使得在相同质量下的收敛速度提高了三倍。

智谱团队表示,开源这些技术希望能够激发视频生成技术社区的创新,为开发者提供更多的工程方案和研究基础。同时,智谱期待与更多开发者共同探索人工智能的未来,推动通用人工智能(AGI)的实现。
划重点:
🌟 SCAIL:实现影视级角色动画生成,支持复杂姿态控制。
⚡ RealVideo:实时视频生成系统,生成延迟仅需2-3秒。
🎨 Kaleido:多主体视频生成框架,确保主体一致性,避免特征混淆。


