当前位置：首页 > wzjs >正文

网站建设客户需求网络营销策划书论文

wzjs 2025/8/4 21:57:37

网站建设客户需求,网络营销策划书论文,优秀的个人网站案例分析,广州市白云区网站建设Step-Audio 是业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统，支持多语言对话（如中文，英文，日语），语音情感（如开心，悲伤），方言&#xff…

Step-Audio 是业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统，支持多语言对话（如中文，英文，日语），语音情感（如开心，悲伤），方言（如粤语，四川话）等功能；

在Step-Audio中，阶跃星辰发布了两个模型，分别是：

1300亿多模态模型: 单模型能实现理解生成一体化完成语音识别、语义理解、对话、语音克隆、语音生成等功能，开源千亿参数多模态模型 Step-Audio-Chat；
语音合成模型: 基于130B 突破传统 TTS 对人工采集数据的依赖，生成高质量的合成音频数据，并同步开源首个基于大规模合成数据训练，支持 RAP 和哼唱的指令加强版语音合成模型 Step-Audio-TTS-3B ；

从官网上给出的数据，要运行Step-Audio-Chat最低需要265G的显存，目前小编能力有限，无法运行，不过可以尝试最低只需要8G显存的Step-Audio-TTS-3B模型跑一跑看看效果；官方提供了推理代码，测试了Step-Audio-TTS-3B的TTS文本转语音以及语音合成（克隆），效果明显优于Chat-TTS，尤其是克隆效果感觉就是我自己在说话；

一、安装

运行Step-Audio-TTS-3B需要有一张16G左右的显卡，以及安装对应的驱动，下面就开始安装：

# 从github上拉取项目代码
git clone https://github.com/stepfun-ai/Step-Audio.git# 创建并激活虚拟环境（也可以在base环境安装）
conda create -n stepaudio python=3.10
conda activate stepaudio# 进入项目，并安装项目所需依赖
cd Step-Audio
pip install -r requirements.txt# 创建模型权重文件夹并进入
mkdir models_weights
cd models_weights# 安装大文件拉取工具，下载模型
git lfs install
# 下载分词器模型
git clone https://www.modelscope.cn/stepfun-ai/Step-Audio-Tokenizer.git
# 下载Step-Audio-TTS-3B
git clone https://www.modelscope.cn/stepfun-ai/Step-Audio-TTS-3B.git

二、推理

通过运行Step-Audio文件夹下的tts_inference.py进行TTS和Clone功能的推理，我们来逐一测试；

# tts_inference.pyimport torchaudio
import argparse
from tts import StepAudioTTS
from tokenizer import StepAudioTokenizer
from utils import load_audio
import osdef main():parser = argparse.ArgumentParser(description="StepAudio Offline Inference")parser.add_argument("--model-path", type=str, required=True, help="Base path for model files")parser.add_argument("--synthesis-type", type=str, default="tts", help="Use tts or Clone for Synthesis")parser.add_argument("--output-path", type=str, required=True, help="Output path for synthesis audios")args = parser.parse_args()os.makedirs(f"{args.output_path}", exist_ok=True)encoder = StepAudioTokenizer(f"{args.model_path}/Step-Audio-Tokenizer")tts_engine = StepAudioTTS(f"{args.model_path}/Step-Audio-TTS-3B", encoder)if args.synthesis_type == "tts":text = "（RAP）我踏上自由的征途，追逐那遥远的梦想，挣脱束缚的枷锁，让心灵随风飘荡，每一步都充满力量，每一刻都无比闪亮，自由的信念在燃烧，照亮我前进的方向!"output_audio, sr = tts_engine(text, "Tingting")torchaudio.save(f"{args.output_path}/output_tts.wav", output_audio, sr)else:clone_speaker = {"speaker":"test","prompt_text":"叫做秋风起蟹脚痒，啊，什么意思呢？就是说这秋风一起啊，螃蟹就该上市了。", "wav_path":"examples/prompt_wav_yuqian.wav"}text_clone = "人活一辈子，生老病死，总得是有高峰，有低谷，有顺境，有逆境，每个人都差不多。要不老话怎么讲，三十年河东，三十年河西呢。"output_audio, sr = tts_engine(text_clone, "",clone_speaker)torchaudio.save(f"{args.output_path}/output_clone.wav", output_audio, sr)if __name__ == "__main__":main()

2.1 TTS（文本转语音）功能

修改脚本：

如下图所示，将tts_inference.py脚本中红框的text替换为自己要转换为语音的文本：

运行命令：

python tts_inference.py --model-path models_weights --output-path output --synthesis-type tts

我们可以看到原脚本中有‘（RAP）’可以控制输出语音的语气，大家可以替换其他语气进行测试；

2.2 Clone（语音合成）功能

修改脚本：

相比于TTS功能，Clone功能稍微繁琐一点：

（1）需要提前准备要克隆的语音样本保存在examples文件夹下，同时修改下图红框中‘wav_path’所指向的语音文本保存路径；

（2）同时准备语音内容所对应的文本信息，替换‘prompt_text’指向的文本；

（3）替换‘text_clone’为克隆的音色需要朗读的文本信息；

运行命令：

python tts_inference.py --model-path models_weights --output-path output --synthesis-type clone

非常简单，大家快去试试吧，效果超乎你想象！

查看全文

http://www.dtcms.com/wzjs/220597.html

合优网房产房出租搜索引擎优化的核心本质

大数据政府网站建设网络营销方案设计

北京东城网站建设公司seo优化技术招聘

找人做淘宝网站多少钱云盘搜索引擎入口

百度网站做不做竞价推广运营

免费做网站怎么盈利搜索引擎优化的方式有哪些

泰安企业建站公司排行搜索引擎优化网站的网址

做网站需要视频衔接怎么陕西疫情最新消息

用asp.net做的网站有哪些友情链接只有链接

bootstrap做的导视网站玄幻小说百度风云榜

黑猫会活动策划网站seo标题关键词优化

国内ui网站有哪些郑州网络推广方案

上饶市建设局网站百代seo资讯网

网站推广入口百度百家官网入口

安阳网站建设设计社群营销的十大步骤

网站优化推广是什么关键词出价计算公式

wrb网站架构东莞seo托管

css3动画库网站html家乡网站设计

电商模板网站免费免费网站收录网站推广

做网站从何开始策划公司排行榜

四川省建设岗位注册中心网站济源新站seo关键词排名推广

县政府门户网站建设情况爱上链外链购买平台

简述网站建设基本步骤百度小说排行榜2019

河池网站推广网络搜索词排名

南皮网站建设网络广告的形式

深圳市政府网站官网网络营销广告名词解释

做网站附加信息营销网站建设规划

wordpress一键仿站外包公司和劳务派遣

web前端开发和后端开发seo优化一般包括哪些内容

幼儿园网站设计和建设seo自动优化工具

一、安装

二、推理

2.1 TTS（文本转语音）功能

2.2 Clone（语音合成）功能

相关文章：