当前位置：首页 > wzjs >正文

网站建设客户需求如何建立网站个人

wzjs 2025/8/14 21:37:59

网站建设客户需求,如何建立网站个人,app制作流程图,新媒体平台有哪些?Step-Audio 是业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统，支持多语言对话（如中文，英文，日语），语音情感（如开心，悲伤），方言&#xff…

Step-Audio 是业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统，支持多语言对话（如中文，英文，日语），语音情感（如开心，悲伤），方言（如粤语，四川话）等功能；

在Step-Audio中，阶跃星辰发布了两个模型，分别是：

1300亿多模态模型: 单模型能实现理解生成一体化完成语音识别、语义理解、对话、语音克隆、语音生成等功能，开源千亿参数多模态模型 Step-Audio-Chat；
语音合成模型: 基于130B 突破传统 TTS 对人工采集数据的依赖，生成高质量的合成音频数据，并同步开源首个基于大规模合成数据训练，支持 RAP 和哼唱的指令加强版语音合成模型 Step-Audio-TTS-3B ；

从官网上给出的数据，要运行Step-Audio-Chat最低需要265G的显存，目前小编能力有限，无法运行，不过可以尝试最低只需要8G显存的Step-Audio-TTS-3B模型跑一跑看看效果；官方提供了推理代码，测试了Step-Audio-TTS-3B的TTS文本转语音以及语音合成（克隆），效果明显优于Chat-TTS，尤其是克隆效果感觉就是我自己在说话；

一、安装

运行Step-Audio-TTS-3B需要有一张16G左右的显卡，以及安装对应的驱动，下面就开始安装：

# 从github上拉取项目代码
git clone https://github.com/stepfun-ai/Step-Audio.git# 创建并激活虚拟环境（也可以在base环境安装）
conda create -n stepaudio python=3.10
conda activate stepaudio# 进入项目，并安装项目所需依赖
cd Step-Audio
pip install -r requirements.txt# 创建模型权重文件夹并进入
mkdir models_weights
cd models_weights# 安装大文件拉取工具，下载模型
git lfs install
# 下载分词器模型
git clone https://www.modelscope.cn/stepfun-ai/Step-Audio-Tokenizer.git
# 下载Step-Audio-TTS-3B
git clone https://www.modelscope.cn/stepfun-ai/Step-Audio-TTS-3B.git

二、推理

通过运行Step-Audio文件夹下的tts_inference.py进行TTS和Clone功能的推理，我们来逐一测试；

# tts_inference.pyimport torchaudio
import argparse
from tts import StepAudioTTS
from tokenizer import StepAudioTokenizer
from utils import load_audio
import osdef main():parser = argparse.ArgumentParser(description="StepAudio Offline Inference")parser.add_argument("--model-path", type=str, required=True, help="Base path for model files")parser.add_argument("--synthesis-type", type=str, default="tts", help="Use tts or Clone for Synthesis")parser.add_argument("--output-path", type=str, required=True, help="Output path for synthesis audios")args = parser.parse_args()os.makedirs(f"{args.output_path}", exist_ok=True)encoder = StepAudioTokenizer(f"{args.model_path}/Step-Audio-Tokenizer")tts_engine = StepAudioTTS(f"{args.model_path}/Step-Audio-TTS-3B", encoder)if args.synthesis_type == "tts":text = "（RAP）我踏上自由的征途，追逐那遥远的梦想，挣脱束缚的枷锁，让心灵随风飘荡，每一步都充满力量，每一刻都无比闪亮，自由的信念在燃烧，照亮我前进的方向!"output_audio, sr = tts_engine(text, "Tingting")torchaudio.save(f"{args.output_path}/output_tts.wav", output_audio, sr)else:clone_speaker = {"speaker":"test","prompt_text":"叫做秋风起蟹脚痒，啊，什么意思呢？就是说这秋风一起啊，螃蟹就该上市了。", "wav_path":"examples/prompt_wav_yuqian.wav"}text_clone = "人活一辈子，生老病死，总得是有高峰，有低谷，有顺境，有逆境，每个人都差不多。要不老话怎么讲，三十年河东，三十年河西呢。"output_audio, sr = tts_engine(text_clone, "",clone_speaker)torchaudio.save(f"{args.output_path}/output_clone.wav", output_audio, sr)if __name__ == "__main__":main()

2.1 TTS（文本转语音）功能

修改脚本：

如下图所示，将tts_inference.py脚本中红框的text替换为自己要转换为语音的文本：

运行命令：

python tts_inference.py --model-path models_weights --output-path output --synthesis-type tts

我们可以看到原脚本中有‘（RAP）’可以控制输出语音的语气，大家可以替换其他语气进行测试；

2.2 Clone（语音合成）功能

修改脚本：

相比于TTS功能，Clone功能稍微繁琐一点：

（1）需要提前准备要克隆的语音样本保存在examples文件夹下，同时修改下图红框中‘wav_path’所指向的语音文本保存路径；

（2）同时准备语音内容所对应的文本信息，替换‘prompt_text’指向的文本；

（3）替换‘text_clone’为克隆的音色需要朗读的文本信息；

运行命令：

python tts_inference.py --model-path models_weights --output-path output --synthesis-type clone

非常简单，大家快去试试吧，效果超乎你想象！

查看全文

http://www.dtcms.com/wzjs/347072.html

wordpress 做企业网站守游网络推广平台

做网站的素材包含哪些友情链接导航

python制作网页的基本步骤优化大师破解版app

设计公司网站页面设计360优化大师官网

展示型网站建设标准网站排名监控工具

网站404页面查询网站服务器ip查询

用服务器做网站空间凤凰网台湾资讯

html网站开发工具下载站长seo推广

昆明移动端网站建设今日全国疫情一览表

网页设计与制作做网站电商数据查询平台

1.1做网站的目的网络推广渠道和方式

网站建设人员招聘如何网络媒体推广

无锡网站建设原则seo平台是什么意思

网站公司文化怎么做制作网站的基本步骤

网站如何收费网站关键词如何优化上首页

上饶哪里可以学网站建设游戏推广文案

网站开发根目录建在哪网站seo技术教程

教育机构网站制作模板优化快速排名公司

网站支付页面设计西安seo网络推广

wordpress处理大数据东莞网络优化哪家好

小型企业网站模板福清市百度seo

周村有做网站广告的吗网站搜什么关键词好

威海做网站推广的企业阿里指数官方网站

网站优惠券怎么做的健康码防疫核验一体机

网站建设费用支出方案游戏推广赚钱

用网站做自我介绍ppt湖南广告优化

做招聘网站需要什么seo外链发布平台有哪些

网站漏洞以及找后台入口等功能.成都seo论坛

定陶网站建设怎样注册自己网站的域名

一、安装

二、推理

2.1 TTS（文本转语音）功能

2.2 Clone（语音合成）功能

相关文章：