Step-Audio-EditX - 智能音频编辑助手,支持说话音频情感编辑、语音克隆、音频降噪 支持50系显卡 一键整合包下载


Step-Audio-EditX 是一个基于大型语言模型的智能音频编辑工具,拥有30亿参数,专门用于实现富有表现力的迭代式音频编辑。它能像专业调音师一样,简单通过文字指令,帮你轻松精准调整语音的情感、说话风格和各种副语言等细节。
Step-Audio-EditX 专门用于表现力和迭代性音频编辑。它在编辑情绪、说话风格和副语言方面表现出色,同时具备强大的零样本文本到语音(TTS)功能。除此之外,它还支持 迭代式编辑 ,可以在原有音频的基础上进行多轮微调,实现自然、可积累的情感强化。还能修复嘈杂的音频,提升音频质量和清晰度。
下载地址:---》点此下载
核心功能
零样本语音克隆
多语言支持:支持普通话、英语等语言的语音克隆
方言支持:支持多种方言,仅需要简单提示词比如“将这段话改为粤语,带一点俏皮语气”
情感与风格编辑
情感编辑:支持愤怒、开心、悲伤、兴奋、恐惧、惊讶、厌恶等多种情绪
说话风格编辑:撒娇、老年音、童声、耳语、严肃、大方、夸张等数十种风格 支持多次迭代编辑,逐步调整到理想效果
副语言特征控制
精确控制10种自然语音特征,让合成音频更真实生动
支持标签:[呼吸声]、[笑声]、[惊讶-哦]、[确认-嗯]、[思考-呃]、[叹气]、[疑问-诶]、[不满-哼]等
应用场景
内容创作
视频配音:为短视频、教学视频制作不同情感语调的旁白
有声读物:用不同角色声音演绎故事内容 游戏配音:快速生成NPC对话音频
教育培训
语言学习:模仿不同口音和语调的发音
演讲训练:调整演讲的情感强度和表达风格
音频修复
降噪处理:提升嘈杂音频的清晰度
语速调整:加快或放慢说话节奏
情感增强:为平淡的语音注入活力
使用教程:(建议N卡,显存12G起,支持50系显卡,建议CUDA≥12.8)
上传需要编辑的参考音频,输入参考音频文字内容,输入需要编辑的目标文本(支持情感和风格等标签插入),选择任务类型(比如克隆,情感编辑),克隆和编辑选择不同的提交按钮,注意区分克隆和编辑按钮,克隆按钮只能选择clone任务类型
注:支持多次迭代编辑,所以默认是在上一次的编辑结果继续下一次编辑,比如第一次提交了一个任务,生成了一个结果, 下一次编辑任务默认是在第一次编辑的结果基础上继续二次编辑,所以如果需要提交新的编辑任务,需清空历史记录才是新的任务。
还有就是,一次编辑音频不要太长,10s以内最好,否则显存会飙升,如果你的显卡很强悍(比H100),可以无视音频时长。
情感(Emotion)标签:Angry(愤怒)、Happy(快乐)、Sad(悲伤)、Confusion(困惑)、Excited(兴奋)、Fearful(恐惧)、Surprised(惊讶)、Disgusted(厌恶)等
说话风格(Style)标签:Act_coy(活泼)、Older(年长)、Child(儿童)、Whisper(耳语)、Serious(严肃)、Generous(慷慨)、Exaggerated(夸张)、Exaggerated(傲慢)、Recite(朗读)等
副语言标签:Breathing(呼吸声)、Laughter(笑声)、Suprise-oh(惊讶-哦)、Confirmation-en(确认-嗯)、Uhm(嗯哼)、Suprise-ah(惊讶-啊)、Suprise-wa(惊讶-哇)、Sigh(叹息声)、Question-ei(疑问-诶)、Dissatisfaction-hnn(不满-哼)
子任务标签如果不懂英文意思,可以借助翻译工具翻译理解
任务类型:clone(语音克隆)、emotion(情感编辑)、sytle(说话风格)、denoise(降噪)、paralinguistic(副语言)、speed(语速编辑)
分别下载压缩包和模型(ckpts文件夹),解压压缩包,并将ckpts文件夹移动到解压的一键包目录下
软件目录结构
├──cache
│ ├── ckpts
│ │ ├── Step-Audio-EditX
│ │ └── Step-Audio-Tokenizer
├── deepface
├── funasr_detach
├── app.py
......
