当前位置: 首页 > news >正文

部署Fish-Speech实现声音克隆及文本转语音

FishSpeech 是由Fish Audio团队开发的一款开源文本转语音(TTS)模型,支持多语言的语音合成和识别。它采用先进的深度学习技术,能够生成自然流畅的语音,并提供高质量的语音转文字功能。FishSpeech 支持声音克隆,仅需15秒的音频样本即可生成相似语音。它还支持本地部署,用户可以在个人设备上轻松运行,仅需4GB显存。FishSpeech 广泛应用于内容创作、教育、虚拟助手、游戏和辅助工具等领域,为语音交互提供了强大的技术支持。

要求

  • GPU 内存: 4GB (用于推理), 8GB (用于微调)
  • 系统: Linux, Windows

下载模型

克隆FishSpeech仓库:

git clone https://github.com/fishaudio/fish-speech.git
cd fish-speech

下载模型权重:

git clone https://hf-mirror.com/fishaudio/fish-speech-1.5

或者手动下载模型文件,并放置在checkpoints/fish-speech-1.5目录下。

安装环境依赖

创建虚拟环境

conda create -n fish-speech python=3.10
conda activate fish-speech

 安装PyTorch

pip install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 --index-url https://download.pytorch.org/whl/cu121

安装Fish-Speech

pip install -e .

安装Triton加速(可选)

pip install https://github.com/AnyaCoder/fish-speech/releases/download/v0.1.0/triton_windows-0.1.0-py3-none-any.whl

运行项目

启动WebUI服务:

python tools/run_webui.py

启动API服务:

python tools/api_server.py --listen 0.0.0.0:3003

使用WebUI进行语音合成:

  • 打开浏览器,访问http://localhost:7860
  • 在WebUI中输入文本,上传参考音频(可选),然后点击“生成”按钮即可

相关文章:

  • Windows 系统中安装 Git 并配置 GitHub 账户
  • C++基本语法
  • 【C语言】--- 编译和链接
  • C语言程序环境和预处理详解
  • centos7.9升级OpenSSL 1.1.1
  • 代码随想录算法训练营Day23
  • 强化学习的epsilon,应该越来越大?还是越来越小?为什么?
  • 面向对象高级(2)
  • Apache与Nginx网站压测对比
  • C语言 共用体和typedef
  • 集群搭建Weblogic服务器!
  • C++学习之金融类安全传输平台项目git
  • 第十五届蓝桥杯C/C++B组省赛真题讲解(分享去年比赛的一些真实感受)
  • 智体知识库:poplang编程语言是什么?
  • 具身机器人中AI(DEEPSEEK)与PLC、驱动器协同发展研究:突破数据困境与指令精确控制(1)
  • System 应用访问 Vendor 库的详细方案
  • 如何将数组转换为对象(键为数组元素,值为 true)
  • 用 Vue 3 + D3.js 实现动态数据流图
  • noscript 标签是干什么的
  • Linux上位机开发实践(关于Qt的移植)
  • 黑龙江建设厅网站官网/百度指数排行榜哪里看
  • 公司做网络推广怎么做/seo的工具有哪些
  • 渭南网站建设价格/百度关键词规划师
  • 武汉光谷做网站的公司/seo zac
  • 郑州网站建设网络公司/网络营销案例题
  • html5网站引导页模板/上海网络seo公司