当前位置: 首页 > news >正文

部署Fish-Speech实现声音克隆及文本转语音

FishSpeech 是由Fish Audio团队开发的一款开源文本转语音(TTS)模型,支持多语言的语音合成和识别。它采用先进的深度学习技术,能够生成自然流畅的语音,并提供高质量的语音转文字功能。FishSpeech 支持声音克隆,仅需15秒的音频样本即可生成相似语音。它还支持本地部署,用户可以在个人设备上轻松运行,仅需4GB显存。FishSpeech 广泛应用于内容创作、教育、虚拟助手、游戏和辅助工具等领域,为语音交互提供了强大的技术支持。

要求

  • GPU 内存: 4GB (用于推理), 8GB (用于微调)
  • 系统: Linux, Windows

下载模型

克隆FishSpeech仓库:

git clone https://github.com/fishaudio/fish-speech.git
cd fish-speech

下载模型权重:

git clone https://hf-mirror.com/fishaudio/fish-speech-1.5

或者手动下载模型文件,并放置在checkpoints/fish-speech-1.5目录下。

安装环境依赖

创建虚拟环境

conda create -n fish-speech python=3.10
conda activate fish-speech

 安装PyTorch

pip install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 --index-url https://download.pytorch.org/whl/cu121

安装Fish-Speech

pip install -e .

安装Triton加速(可选)

pip install https://github.com/AnyaCoder/fish-speech/releases/download/v0.1.0/triton_windows-0.1.0-py3-none-any.whl

运行项目

启动WebUI服务:

python tools/run_webui.py

启动API服务:

python tools/api_server.py --listen 0.0.0.0:3003

使用WebUI进行语音合成:

  • 打开浏览器,访问http://localhost:7860
  • 在WebUI中输入文本,上传参考音频(可选),然后点击“生成”按钮即可
http://www.dtcms.com/a/129274.html

相关文章:

  • Windows 系统中安装 Git 并配置 GitHub 账户
  • C++基本语法
  • 【C语言】--- 编译和链接
  • C语言程序环境和预处理详解
  • centos7.9升级OpenSSL 1.1.1
  • 代码随想录算法训练营Day23
  • 强化学习的epsilon,应该越来越大?还是越来越小?为什么?
  • 面向对象高级(2)
  • Apache与Nginx网站压测对比
  • C语言 共用体和typedef
  • 集群搭建Weblogic服务器!
  • C++学习之金融类安全传输平台项目git
  • 第十五届蓝桥杯C/C++B组省赛真题讲解(分享去年比赛的一些真实感受)
  • 智体知识库:poplang编程语言是什么?
  • 具身机器人中AI(DEEPSEEK)与PLC、驱动器协同发展研究:突破数据困境与指令精确控制(1)
  • System 应用访问 Vendor 库的详细方案
  • 如何将数组转换为对象(键为数组元素,值为 true)
  • 用 Vue 3 + D3.js 实现动态数据流图
  • noscript 标签是干什么的
  • Linux上位机开发实践(关于Qt的移植)
  • 具身智能零碎知识点(三):深入解析 “1D UNet”:结构、原理与实战
  • Python_levl2.3函数
  • 【AutoTest】自动化测试工具大全(Python)
  • 限流、降级、熔断、隔离?
  • 【Hyperlane 】轻松实现大文件分块上传!
  • 六、测试分类
  • Python中NumPy的逻辑和比较
  • API 请求失败时的处理方法
  • 如何使用MaxScript+dotNet在UI中显示图像?
  • 大模型LLM表格报表分析:markitdown文件转markdown,大模型markdown统计分析