首页工具导航模型库资讯产品测评干货

首页工具导航模型库资讯产品测评干货

0

收藏

分享

米哈游蔡浩宇 AI 公司新模型 LPM 1.0 公布：170 亿参数，主打高一致性视频角色表演生成

2026年4月10日 19:08·ithome

感谢IT之家网友 F宝的线索投递！

IT之家 4 月 10 日消息，米哈游创始人蔡浩宇退休后投身 AI 领域，在新加坡创立了新公司 Anuttacon，专注于 AI 交互式内容和 AGI 产品研发，其首款 AI 游戏《星之低语》已于去年发售。

当地时间 4 月 9 日，Anuttacon 团队在 arXiv 发布论文，正式公开其新一代视频角色表演生成模型 LPM 1.0（Large Performance Model），并同步上线项目主页。

米哈游蔡浩宇 AI 公司新模型 LPM 1.0 公布：170 亿参数，主打高一致性视频角色表演生成

论文作者名单共包含 24 位研究人员，通讯作者为曾爱玲。其个人主页显示她目前正在 Anuttacon 工作，此前曾在腾讯混元团队及 AI Lab 从事计算机视觉与生成模型相关研究工作。

米哈游蔡浩宇 AI 公司新模型 LPM 1.0 公布：170 亿参数，主打高一致性视频角色表演生成

论文显示，LPM 1.0 采用规模为 17B（约 170 亿参数）的扩散 Transformer 架构。扩散模型是一类通过逐步加噪与去噪过程学习数据分布的生成模型，近年来已被广泛应用于图像与视频生成等视觉任务，其核心机制是从随机噪声中逐步恢复出目标内容，从而实现高质量生成。在此基础上，Transformer 架构被引入作为主干网络，使模型能够在统一的表示空间中处理时序与空间信息，从而提升复杂视频生成任务中的表达能力。

从技术路径来看，当前视频生成模型正从传统基于 U-Net 的扩散结构逐步演进至基于 Transformer 的 DiT（Diffusion Transformer）架构。相关研究表明，这类架构通过将空间、时间及条件信息统一为 token 进行建模，使模型具备更强的全局建模能力，有助于提升视频生成的清晰度、时序一致性以及语义多样性。LPM 1.0 即是在这一技术趋势下构建，其目标是面向“角色表演生成”这一更细分场景，对人物动作、表情以及语义驱动的表现进行统一建模。

米哈游蔡浩宇 AI 公司新模型 LPM 1.0 公布：170 亿参数，主打高一致性视频角色表演生成

论文指出，表演是意图、情感和个性通过视觉、声音和时间行为的外化，是让角色活起来的关键。从视频中学习这种表演是传统 3D 流程的有力替代方案。然而，现有的视频模型难以同时实现高表现力、实时推理和长时稳定性，这一矛盾被称为表演三难。

为此，研究团队推出了 LPM 1.0，专注于单人全双工音频-视觉对话表演。具体而言，他们通过严格过滤、说话-倾听音频-视频配对、表演理解以及身份感知多参考提取，构建了一个多模态以人为中心的数据集。

论文中指出，LPM 1.0 被设计为支持不同粒度的控制能力，包括基于文本、参考视频或图像等多种条件输入，生成具有连贯动作与表现力的角色视频内容。

米哈游蔡浩宇 AI 公司新模型 LPM 1.0 公布：170 亿参数，主打高一致性视频角色表演生成

在推理阶段，给定带有身份感知参考的角色图像，LPM 1.0 可以从用户音频生成倾听视频，从合成音频生成说话视频，并支持文本提示进行动作控制，所有过程均以“实时”速度运行，并保持身份稳定和无限长度生成。LPM 1.0 因此可作为对话智能体、直播角色和游戏 NPC 的视觉引擎。

为系统评估这一设置，研究团队还提出了 LPM-Bench，这是首个交互式角色表演基准。LPM 1.0 在所有评估维度上均取得了最优结果，同时保持实时推理能力。

米哈游蔡浩宇 AI 公司新模型 LPM 1.0 公布：170 亿参数，主打高一致性视频角色表演生成

在项目演示中，其视频对话模式可与 ChatGPT、豆包等音频到音频（A2A）模型即插即用组合，生成角色视频，预计可应用于对话式 AI 智能体、交互式 NPC 与游戏角色、直播与虚拟主播、教育与个性化辅导、游戏陪伴、娱乐内容陪伴等领域。

米哈游蔡浩宇 AI 公司新模型 LPM 1.0 公布：170 亿参数，主打高一致性视频角色表演生成

值得一提的是，该模型目前仅供非商业学术使用，暂无计划对外发布模型权重、源代码、在线演示、API、产品或任何相关服务。该模型不会开源，也不会对外提供使用。

IT之家附项目地址：
https://large-performance-model.github.io/

相关阅读：

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

相关文章

查看更多

字节跳动推出 StoryMem 系统，解决 AI 视频生成中的角色一致性问题

字节跳动推出StoryMem系统，旨在解决AI视频生成中长期存在的角色一致性问题，确保在生成多段视频时，同一角色的外观、特征和风格能够保持稳定和连贯。

1 元 1 秒，字节 Seedance 2.0 视频生成 AI 模型公布 API 定价

字节跳动日本公司：已调整 Seedance 2.0 服务，以防 AI 模型生成侵权视频

小米自研 MINT 统一模型部署平台发布：降低 AI 开发门槛，优先向生态链公司开放

小米发布自研MINT统一模型部署平台，旨在降低AI开发门槛，提升模型部署效率。该平台将优先向小米生态链公司开放，推动其智能硬件与服务的AI能力升级。