谷歌Vids集成 Veo3.1模型，支持文字提示词指挥 AI 虚拟形象互动

2026年4月3日 09:39·AIBase

谷歌于4月2日宣布为其企业级视频创作应用 Vids 引入重大升级，通过集成 Veo3.1视频生成模型与自然语言交互技术，实现从静态生成向动态“指令控制”的跨越。此次更新的核心在于赋予 AI 虚拟形象更强的交互能力，用户仅需输入简单的文字提示，即可指挥形象在场景中完成与产品、道具或设备的特定互动，且能在动态输出中保持角色视觉的一致性。

此外，Vids 进一步整合了多模态能力，在近期加入Lyria3系列音频模型的基础上，Veo3.1的接入支持生成8秒视频片段，并向普通用户及企业高级版账户分别提供每月10次至1000次不等的生成配额。

为打通工作流闭环，Google Vids新增了直接导出至 YouTube 的功能，并配合全新的 Chrome 录屏扩展程序，构建了从素材捕获到成品分发的全链路。

与此同时，人工智能领域的竞争态势正持续升级，微软于同日发布了 MAI 系列三款基础模型，涵盖25种语言的语音转录、音频生成及视频生成能力，旨在通过更低的成本门槛挑战谷歌与 OpenAI 的市场地位。

谷歌自2024年推出 Vids 以来，已迅速迭代了3D 卡通形象及多国语言支持。这种基于提示词的精细化控制功能，标志着 AI 视频工具正从简单的内容生成转向更具专业深度的自动化导演阶段，将进一步重塑企业内容生产的成本结构与创意边界。

谷歌Vids集成 Veo3.1模型，支持文字提示词指挥 AI 虚拟形象互动

相关文章

打破语言孤岛！谷歌AI虚拟形象支持 24 种语言：跨时空、跨文化，“数字人”沟通进入无障碍时代

谷歌 AI 学习笔记 NotebookLM 现已支持提示词引导修改与幻灯导出等功能

谷歌推出 Nano Banana 2 图像 AI 模型：支持 4K 分辨率输出、改进中文字符乱码问题

字节跳动发布 Seedance 1.5 pro 模型，支持音视频联合生成

谷歌开放 ProducerAI：为音乐人提供从作词、编曲到混音的全链路 AI 创作支持

拒绝“文字堆砌”:三位前谷歌大牛打造 Sparkli，用生成式 AI 重塑儿童互动教育