文章
StepFun AI 推出开源音频编辑模型 Step-Audio-EditX,实现音频编辑新体验

StepFun AI 推出开源音频编辑模型 Step-Audio-EditX,实现音频编辑新体验

2025年11月10日 10:46·AIBase

AI
开源
音频编辑
Step-Audio-EditX音频编辑模型:让语音编辑像文本编辑一样简单

音频编辑新突破:Step-Audio-EditX模型让语音控制更精准

StepFun AI最新开源模型彻底改变音频编辑方式,将复杂语音编辑转化为直观的令牌操作,实现前所未有的控制精度。

音频编辑的革命性进步

StepFun AI近日发布开源音频编辑模型Step-Audio-EditX。

这个3B参数模型让音频编辑变得像文本编辑一样简单。

通过将音频信号转换为令牌操作,语音编辑变得更加直观可控。

传统语音合成的局限性

当前零样本文本转语音系统存在明显不足。

它们在情感、风格和音色控制上表现有限。

虽然能生成自然语音,但往往无法精确满足用户需求。

Step-Audio-EditX通过创新方法解决了这一难题。

Step-Audio-EditX模型采用双代码本标记器处理语音信号

创新技术架构解析

模型采用双代码本标记器技术。

语音被映射为两个独立令牌流:

  • 语言流:以16.7Hz速率记录语音内容
  • 语义流:以25Hz速率捕捉语义信息

这种设计让模型能同时处理文本和音频令牌。

先进训练方法

模型采用大边距学习方法提升性能。

训练使用合成三元组和四元组数据增强表现。

基于6万名说话者的高质量数据进行训练。

结合人类评分数据进行强化学习优化。

Step-Audio-EditX在情感和风格编辑方面表现优异

严谨的性能评估

研究团队引入Step-Audio-Edit-Test基准。

使用Gemini2.5Pro作为评估工具。

测试显示模型在情感和风格准确性上显著提升。

该模型还能提升其他TTS系统的音频质量。

核心亮点总结

🎤 Step-Audio-EditX模型 - 重新定义音频编辑体验

📈 大边距学习技术 - 显著提升编辑精度

🔍 专业评估基准 - 确保音频质量优化

论文地址:https://arxiv.org/abs/2511.03601

Step-Audio-EditX为音频编辑领域带来突破性进展,开启了语音控制的新篇章。