StepFun AI 推出开源音频编辑模型 Step-Audio-EditX，实现音频编辑新体验

2025年11月10日 10:46·AIBase

开源

音频编辑

Step-Audio-EditX音频编辑模型：让语音编辑像文本编辑一样简单

音频编辑新突破：Step-Audio-EditX模型让语音控制更精准

StepFun AI最新开源模型彻底改变音频编辑方式，将复杂语音编辑转化为直观的令牌操作，实现前所未有的控制精度。

音频编辑的革命性进步

StepFun AI近日发布开源音频编辑模型Step-Audio-EditX。

这个3B参数模型让音频编辑变得像文本编辑一样简单。

通过将音频信号转换为令牌操作，语音编辑变得更加直观可控。

传统语音合成的局限性

当前零样本文本转语音系统存在明显不足。

它们在情感、风格和音色控制上表现有限。

虽然能生成自然语音，但往往无法精确满足用户需求。

Step-Audio-EditX通过创新方法解决了这一难题。

创新技术架构解析

模型采用双代码本标记器技术。

语音被映射为两个独立令牌流：

语言流：以16.7Hz速率记录语音内容
语义流：以25Hz速率捕捉语义信息

这种设计让模型能同时处理文本和音频令牌。

先进训练方法

模型采用大边距学习方法提升性能。

训练使用合成三元组和四元组数据增强表现。

基于6万名说话者的高质量数据进行训练。

结合人类评分数据进行强化学习优化。

严谨的性能评估

研究团队引入Step-Audio-Edit-Test基准。

使用Gemini2.5Pro作为评估工具。

测试显示模型在情感和风格准确性上显著提升。

该模型还能提升其他TTS系统的音频质量。

核心亮点总结

🎤 Step-Audio-EditX模型 - 重新定义音频编辑体验

📈 大边距学习技术 - 显著提升编辑精度

🔍 专业评估基准 - 确保音频质量优化

StepFun AI 推出开源音频编辑模型 Step-Audio-EditX，实现音频编辑新体验

音频编辑新突破：Step-Audio-EditX模型让语音控制更精准

音频编辑的革命性进步

传统语音合成的局限性

创新技术架构解析

先进训练方法

严谨的性能评估

核心亮点总结

相关文章

StepFun AI 发布全新音频大语言模型 Step-Audio-R1，音频推理能力显著提升

清华与 OpenBMB 联合推出 UltraEval-Audio：音频模型评测新框架开源发布

全新音频评测工具 UltraEval-Audio 上线，助力音频模型研发！

Lightricks 开源 AI 视频模型 LTX-2 实现长达20秒的高速音视频一体化合成

通义千问推出 Qwen-Image-Layered 模型，实现图片 “分层编辑” 突破

千问App上线Wan2.7视频模型：几句话搞定视频编辑和动作续写

StepFun AI 推出开源音频编辑模型 Step-Audio-EditX，实现音频编辑新体验

音频编辑的革命性进步

传统语音合成的局限性

创新技术架构解析

先进训练方法

严谨的性能评估

核心亮点总结

​StepFun AI 发布全新音频大语言模型 Step-Audio-R1，音频推理能力显著提升

清华与 OpenBMB 联合推出 UltraEval-Audio：音频模型评测新框架开源发布

全新音频评测工具 UltraEval-Audio 上线，助力音频模型研发！

Lightricks 开源 AI 视频模型 LTX-2 实现长达20秒的高速音视频一体化合成

通义千问推出 Qwen-Image-Layered 模型，实现图片 “分层编辑” 突破

千问App上线Wan2.7视频模型：几句话搞定视频编辑和动作续写

StepFun AI 发布全新音频大语言模型 Step-Audio-R1，音频推理能力显著提升