文章
米哈游蔡浩宇 AI 公司新模型 LPM 1.0 公布:170 亿参数,主打高一致性视频角色表演生成

米哈游蔡浩宇 AI 公司新模型 LPM 1.0 公布:170 亿参数,主打高一致性视频角色表演生成

2026年4月10日 19:08·ithome

感谢IT之家网友 F宝 的线索投递!

IT之家 4 月 10 日消息,米哈游创始人蔡浩宇退休后投身 AI 领域,在新加坡创立了新公司 Anuttacon,专注于 AI 交互式内容和 AGI 产品研发,其首款 AI 游戏《星之低语》已于去年发售。

当地时间 4 月 9 日,Anuttacon 团队在 arXiv 发布论文,正式公开其新一代视频角色表演生成模型 LPM 1.0(Large Performance Model),并同步上线项目主页。

论文作者名单共包含 24 位研究人员,通讯作者为曾爱玲。其个人主页显示她目前正在 Anuttacon 工作,此前曾在腾讯混元团队及 AI Lab 从事计算机视觉与生成模型相关研究工作。

论文显示,LPM 1.0 采用规模为 17B(约 170 亿参数)的扩散 Transformer 架构。扩散模型是一类通过逐步加噪与去噪过程学习数据分布的生成模型,近年来已被广泛应用于图像与视频生成等视觉任务,其核心机制是从随机噪声中逐步恢复出目标内容,从而实现高质量生成。在此基础上,Transformer 架构被引入作为主干网络,使模型能够在统一的表示空间中处理时序与空间信息,从而提升复杂视频生成任务中的表达能力。

从技术路径来看,当前视频生成模型正从传统基于 U-Net 的扩散结构逐步演进至基于 Transformer 的 DiT(Diffusion Transformer)架构。相关研究表明,这类架构通过将空间、时间及条件信息统一为 token 进行建模,使模型具备更强的全局建模能力,有助于提升视频生成的清晰度、时序一致性以及语义多样性。LPM 1.0 即是在这一技术趋势下构建,其目标是面向“角色表演生成”这一更细分场景,对人物动作、表情以及语义驱动的表现进行统一建模。

论文指出,表演是意图、情感和个性通过视觉、声音和时间行为的外化,是让角色活起来的关键。从视频中学习这种表演是传统 3D 流程的有力替代方案。然而,现有的视频模型难以同时实现高表现力、实时推理和长时稳定性,这一矛盾被称为表演三难。

为此,研究团队推出了 LPM 1.0,专注于单人全双工音频-视觉对话表演。具体而言,他们通过严格过滤、说话-倾听音频-视频配对、表演理解以及身份感知多参考提取,构建了一个多模态以人为中心的数据集。

论文中指出,LPM 1.0 被设计为支持不同粒度的控制能力,包括基于文本、参考视频或图像等多种条件输入,生成具有连贯动作与表现力的角色视频内容。

在推理阶段,给定带有身份感知参考的角色图像,LPM 1.0 可以从用户音频生成倾听视频,从合成音频生成说话视频,并支持文本提示进行动作控制,所有过程均以“实时速度运行,并保持身份稳定和无限长度生成。LPM 1.0 因此可作为对话智能体、直播角色和游戏 NPC 的视觉引擎。

为系统评估这一设置,研究团队还提出了 LPM-Bench,这是首个交互式角色表演基准。LPM 1.0 在所有评估维度上均取得了最优结果,同时保持实时推理能力。

在项目演示中,其视频对话模式可与 ChatGPT、豆包等音频到音频(A2A)模型即插即用组合,生成角色视频,预计可应用于对话式 AI 智能体、交互式 NPC 与游戏角色、直播与虚拟主播、教育与个性化辅导、游戏陪伴、娱乐内容陪伴等领域。

值得一提的是,该模型目前仅供非商业学术使用,暂无计划对外发布模型权重、源代码、在线演示、API、产品或任何相关服务。该模型不会开源,也不会对外提供使用。

IT之家附项目地址:
https://large-performance-model.github.io/

相关阅读:

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。