当前位置: 首页 > news >正文

Step-Audio-EditX - 智能音频编辑助手,支持说话音频情感编辑、语音克隆、音频降噪 支持50系显卡 一键整合包下载

Step-Audio-EditX 是一个基于大型语言模型的智能音频编辑工具,拥有30亿参数,专门用于实现富有表现力的迭代式音频编辑。它能像专业调音师一样,简单通过文字指令,帮你轻松精准调整语音的情感、说话风格和各种副语言等细节

Step-Audio-EditX 专门用于表现力和迭代性音频编辑。它在编辑情绪、说话风格和副语言方面表现出色,同时具备强大的零样本文本到语音(TTS)功能。除此之外,它还支持 迭代式编辑 ,可以在原有音频的基础上进行多轮微调,实现自然、可积累的情感强化。还能修复嘈杂的音频,提升音频质量和清晰度。
 

下载地址:---》点此下载


核心功能‌

零样本语音克隆‌  
多语言支持:支持普通话、英语等语言的语音克隆
方言支持:支持多种方言,仅需要简单提示词比如“将这段话改为粤语,带一点俏皮语气”

情感与风格编辑‌  
情感编辑:支持愤怒、开心、悲伤、兴奋、恐惧、惊讶、厌恶等多种情绪
说话风格编辑:撒娇、老年音、童声、耳语、严肃、大方、夸张等数十种风格 支持多次迭代编辑,逐步调整到理想效果

副语言特征控制‌  
精确控制10种自然语音特征,让合成音频更真实生动
支持标签:[呼吸声]、[笑声]、[惊讶-哦]、[确认-嗯]、[思考-呃]、[叹气]、[疑问-诶]、[不满-哼]等


应用场景‌

内容创作‌  
视频配音:为短视频、教学视频制作不同情感语调的旁白
有声读物:用不同角色声音演绎故事内容 游戏配音:快速生成NPC对话音频

教育培训‌  
语言学习:模仿不同口音和语调的发音
演讲训练:调整演讲的情感强度和表达风格

音频修复‌  
降噪处理:提升嘈杂音频的清晰度
语速调整:加快或放慢说话节奏
情感增强:为平淡的语音注入活力


使用教程:(建议N卡,显存12G起,支持50系显卡,建议CUDA≥12.8)

上传需要编辑的参考音频,输入参考音频文字内容,输入需要编辑的目标文本(支持情感和风格等标签插入),选择任务类型(比如克隆,情感编辑),克隆和编辑选择不同的提交按钮,注意区分克隆和编辑按钮,克隆按钮只能选择clone任务类型
注:支持多次迭代编辑,所以默认是在上一次的编辑结果继续下一次编辑,比如第一次提交了一个任务,生成了一个结果, 下一次编辑任务默认是在第一次编辑的结果基础上继续二次编辑,所以如果需要提交新的编辑任务,需清空历史记录才是新的任务。
还有就是,一次编辑音频不要太长,10s以内最好,否则显存会飙升,如果你的显卡很强悍(比H100),可以无视音频时长。

情感(Emotion)标签:Angry(愤怒)、Happy(快乐)、Sad(悲伤)、Confusion(困惑)、Excited(兴奋)、Fearful(恐惧)、Surprised(惊讶)、Disgusted(厌恶)等
说话风格(Style)标签:Act_coy(活泼)、Older(年长)、Child(儿童)、Whisper(耳语)、Serious(严肃)、Generous(慷慨)、Exaggerated(夸张)、Exaggerated(傲慢)、Recite(朗读)等
副语言标签:Breathing(呼吸声)、Laughter(笑声)、Suprise-oh(惊讶-哦)、Confirmation-en(确认-嗯)、Uhm(嗯哼)、Suprise-ah(惊讶-啊)、Suprise-wa(惊讶-哇)、Sigh(叹息声)、Question-ei(疑问-诶)、Dissatisfaction-hnn(不满-哼)


子任务标签如果不懂英文意思,可以借助翻译工具翻译理解

任务类型:clone(语音克隆)、emotion(情感编辑)、sytle(说话风格)、denoise(降噪)、paralinguistic(副语言)、speed语速编辑)

分别下载压缩包和模型(ckpts文件夹),解压压缩包,并将ckpts文件夹移动到解压的一键包目录下
软件目录结构

├──cache
│   ├── ckpts
│   │   ├── Step-Audio-EditX
   │   └── Step-Audio-Tokenizer
├── deepface
├── funasr_detach
├── app.py
......

http://www.dtcms.com/a/598076.html

相关文章:

  • 浏览器的打印功能,如果通过HTML5,控制样式
  • 无锡手机网站怎样做像绿色和平组织类似的网站
  • 服务端测试面试题集锦
  • 宿州网站建设设计公司国外做论坛网站
  • invalidate(),postInvalidate()和requestLayout()区别
  • 【03】SIFT算法解析:两张图片的关键点匹配
  • 电子商务网站预算模板wordpress分类目录优化
  • 【Docker】Compose
  • win2003 建设网站wordpress自定义登陆页面
  • 基于单片机的正弦波与方波峰峰值与频率测量系统设计
  • 爱站网关键词搜索成都网站建设新网创想
  • Vivado2018.3——BRAM Generator和BRAM Controller的深度设置小坑
  • ​CUDA C++编程指南(3.2.8)——异步并发执行
  • 论坛网站建设视频教程手机上做app的软件
  • RabbitMQ 从入门到实战:核心特性、应用场景与高级用法全解析
  • 止盈和止损(二)
  • 婚纱摄影网站建站wordpress 获取标签所有文章
  • Vue主要版本的差异
  • 厦门有什么网站制作公司信誉比较好的商家可做网站
  • 做网站带吗百度店铺怎么入驻
  • 试述电子商务网站的建设流程免费简历
  • nginx作业
  • 网站开发 外包 哪家开发公司账务处理
  • 【python】python安装使用pytorch库环境配置
  • 建设工程八大员考试网站网站验证码调用
  • 织梦网站面包屑导航怎么做淘宝培训
  • 网站建设分工的通知广州网站建设外包建设推广
  • 从3W到LNMP搭建私有云存储
  • 第4章:数据获取与质量控制
  • linux磁盘分区挂载