阿里通义千问 Qwen3-TTS 语音合成 AI 模型发布：超 49 种音色，支持多种方言

2025年12月10日 19:32·ithome

语音合成

方言

IT之家 12 月 10 日消息，阿里通义千问今日发布 Qwen3-TTS，这是一款支持多音色、多语种和多方言的语音合成 AI 模型，目前可通过 Qwen API 访问。

IT之家附 Qwen3-TTS 主要改进内容如下：

更加丰富的音色支持：Qwen3-TTS 提供超过 49 种音色，涵盖不同性别、年龄、地域特征与角色设定，包括撒娇搞怪-茉兔、青梅竹马-小野杏、傲娇率性的女汉子-十三、严厉老师-墨讲师、智慧老者-沧明子、萝莉萌妹-萌小姬等角色。
多语种多方言能力持续增强：Qwen3-TTS 支持中文、英文、德语、意大利语、葡萄牙语、西班牙语、日语、韩语、法语、俄语等 10 大主流语言，在 MiniMax TTS multilingual test set 上，平均词错误率（WER）优于 MiniMax、ElevenLabs 及 GPT-4o-Audio-Preview；支持更多音色的方言生成，包括普通话、闽南语、吴语、粤语、四川话、北京话、南京话、天津话和陕西话，还原地方口音特色与语言神韵。
韵律 / 语速更加自然，更拟人化：相比于上一个版本，Qwen3-TTS 自适应根据文本调节语速和韵律的能力大幅提高，官方宣称拟人化程度逼近真人。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

阿里发布超强语音合成模型 Qwen3-TTS，49 种音色满足你的声音需求！

阿里巴巴发布新一代语音合成模型Qwen3-TTS，该模型提供多达49种不同音色选择，能够满足多样化的声音需求，展现了其在人工智能语音技术领域的最新进展。

阿里巴巴发布Qwen3-TTS模型，具备49种音色、支持10种语言和9种方言，其词错误率（WER）表现优于主流商用模型，实现了“开口即角色”的拟真语音合成能力。

阿里千问开源了Qwen3-ASR语音识别模型，该模型支持52种语种与方言，其1.7B参数版本在性能上达到了业界领先的SOTA水平。

阿里通义千问开源Qwen3-TTS模型，实现97ms超低延迟语音合成，支持3秒克隆音色和一句话设计音色，有望颠覆实时AI语音应用。

阿里通义百聆发布新版语音模型，仅需3秒录音即可模拟用户声音，并支持9种语言和18种方言的语音合成与复制。