阿里发布 Qwen3-Omni-Flash 全模态大模型，甜妹、御姐等 AI 人设风格任你选

2025年12月11日 08:32·ithome

大模型

全模态

感谢IT之家网友软媒用户1392612 的线索投递！

IT之家 12 月 11 日消息，阿里 Qwen 团队于 2025 年 12 月 9 日发布博文，宣布推出新一代原生全模态大模型 Qwen3-Omni-Flash-2025-12-01，该模型在 Qwen3-Omni 基础上进行了全面升级，支持文本、图像、音视频的无缝输入与实时流式输出。

IT之家援引博文介绍，该模型不仅能无缝处理文本、图像、音频和视频等多种输入形式，还能通过实时流式响应，同步生成高质量的文本与自然语音。

作为 Qwen3-Omni 的全面升级版，新模型在保持高效响应的同时，着重解决了此前多模态交互中存在的痛点，致力于实现“声形意合，令出智随”的极致体验。

阿里发布 Qwen3-Omni-Flash 全模态大模型，甜妹、御姐等 AI 人设风格任你选

针对口语化场景中常见的“降智”问题，Qwen3-Omni-Flash 大幅增强了对音视频指令的理解与执行能力。新模型显著提升了多轮对话的稳定性与连贯性，彻底告别了以往语音生成中语速拖沓、机械呆板的现象。

现在，模型能根据文本内容自适应调节语速、停顿与韵律，其语音表现的自然度与拟人化程度已逼近真人水平，为用户带来更流畅的对话体验。

此次升级最引人注目的功能是系统提示（System Prompt）控制能力的飞跃。Qwen 团队全面开放了 System Prompt 自定义权限，用户可以精细调控模型的行为模式 —— 无论是设定“甜妹”、“御姐”或“日系”等特定人设风格，还是调整口语化表达偏好及回复长度，模型均能精准执行。

此外，模型的多语言能力也更加可靠，支持 119 种文本语言交互、19 种语音识别语言及 10 种语音合成语言，确保在跨语言场景下响应准确一致。

在客观性能指标上，Qwen3-Omni-Flash-2025-12-01 展现了强大的统治力。数据显示，该模型在逻辑推理任务（ZebraLogic）上得分提升 5.6，在代码生成（LiveCodeBench-v6）上提升 9.3，在多学科视觉问答（MMMU）上提升 4.7。这些数据表明，新模型不仅能更准确地“看懂”图像与视频内容，还在复杂指令遵循与深度逻辑分析上迈上了新台阶。

阿里发布 Qwen3-Omni-Flash 全模态大模型，甜妹、御姐等 AI 人设风格任你选

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

阿里发布 Qwen3-Omni-Flash 全模态大模型，甜妹、御姐等 AI 人设风格任你选

相关文章

阿里发布全模态大模型Qwen3-Omni-Flash：实时流式输出，支持 119 种语言交互

蚂蚁集团发布并开源全模态大模型 Ming-Flash-Omni 2.0，看得更准、听得更细、生成更稳

多模态检索新标杆，阿里通义发布并开源 Qwen3-VL-Embedding&Reranker 模型

蚂蚁集团开源全模态大模型Ming-Flash-Omni 2.0：多模态理解、图像编辑与语音生成全面提升

阿尔特发布“AI+数智创造”全栈产品体系！“圆方”大模型+“御风”AI系统重塑汽车研发流程

突发：阿里千问大模型掌舵人林俊旸卸任