当前位置：首页 > news >正文

Step-Audio-EditX - 智能音频编辑助手，支持说话音频情感编辑、语音克隆、音频降噪支持50系显卡一键整合包下载

news 2025/11/12 10:37:51

Step-Audio-EditX 是一个基于大型语言模型的智能音频编辑工具，拥有30亿参数，专门用于实现富有表现力的迭代式音频编辑。它能像专业调音师一样，简单通过文字指令，帮你轻松精准调整语音的情感、说话风格和各种副语言等细节。

Step-Audio-EditX 专门用于表现力和迭代性音频编辑。它在编辑情绪、说话风格和副语言方面表现出色，同时具备强大的零样本文本到语音（TTS）功能。除此之外，它还支持迭代式编辑，可以在原有音频的基础上进行多轮微调，实现自然、可积累的情感强化。还能修复嘈杂的音频，提升音频质量和清晰度。

下载地址：---》点此下载

核心功能‌

零样本语音克隆‌
多语言支持：支持普通话、英语等语言的语音克隆
方言支持：支持多种方言，仅需要简单提示词比如“将这段话改为粤语，带一点俏皮语气”

情感与风格编辑‌
情感编辑：支持愤怒、开心、悲伤、兴奋、恐惧、惊讶、厌恶等多种情绪
说话风格编辑：撒娇、老年音、童声、耳语、严肃、大方、夸张等数十种风格支持多次迭代编辑，逐步调整到理想效果

副语言特征控制‌
精确控制10种自然语音特征，让合成音频更真实生动
支持标签：[呼吸声]、[笑声]、[惊讶-哦]、[确认-嗯]、[思考-呃]、[叹气]、[疑问-诶]、[不满-哼]等

应用场景‌

内容创作‌
视频配音：为短视频、教学视频制作不同情感语调的旁白
有声读物：用不同角色声音演绎故事内容游戏配音：快速生成NPC对话音频

教育培训‌
语言学习：模仿不同口音和语调的发音
演讲训练：调整演讲的情感强度和表达风格

音频修复‌
降噪处理：提升嘈杂音频的清晰度
语速调整：加快或放慢说话节奏
情感增强：为平淡的语音注入活力

使用教程：（建议N卡，显存12G起，支持50系显卡，建议CUDA≥12.8）

上传需要编辑的参考音频，输入参考音频文字内容，输入需要编辑的目标文本（支持情感和风格等标签插入），选择任务类型（比如克隆，情感编辑），克隆和编辑选择不同的提交按钮，注意区分克隆和编辑按钮，克隆按钮只能选择clone任务类型
注：支持多次迭代编辑，所以默认是在上一次的编辑结果继续下一次编辑，比如第一次提交了一个任务，生成了一个结果，下一次编辑任务默认是在第一次编辑的结果基础上继续二次编辑，所以如果需要提交新的编辑任务，需清空历史记录才是新的任务。
还有就是，一次编辑音频不要太长，10s以内最好，否则显存会飙升，如果你的显卡很强悍（比H100），可以无视音频时长。

情感（Emotion）标签：Angry（愤怒）、Happy（快乐）、Sad（悲伤）、Confusion（困惑）、Excited（兴奋）、Fearful（恐惧）、Surprised（惊讶）、Disgusted（厌恶）等
说话风格（Style）标签：Act_coy（活泼）、Older（年长）、Child（儿童）、Whisper（耳语）、Serious（严肃）、Generous（慷慨）、Exaggerated（夸张）、Exaggerated（傲慢）、Recite（朗读）等
副语言标签：Breathing（呼吸声）、Laughter（笑声）、Suprise-oh（惊讶-哦）、Confirmation-en（确认-嗯）、Uhm（嗯哼）、Suprise-ah（惊讶-啊）、Suprise-wa（惊讶-哇）、Sigh（叹息声）、Question-ei（疑问-诶）、Dissatisfaction-hnn（不满-哼）

子任务标签如果不懂英文意思，可以借助翻译工具翻译理解

任务类型：clone（语音克隆）、emotion（情感编辑）、sytle（说话风格）、denoise（降噪）、paralinguistic（副语言）、speed（语速编辑）

分别下载压缩包和模型（ckpts文件夹），解压压缩包，并将ckpts文件夹移动到解压的一键包目录下
软件目录结构

├──cache
│ ├── ckpts
│ │ ├── Step-Audio-EditX
│ │ └── Step-Audio-Tokenizer
├── deepface
├── funasr_detach
├── app.py
......