当前位置：首页 > news >正文

部署Fish-Speech实现声音克隆及文本转语音

news 2025/10/17 3:06:32

FishSpeech 是由Fish Audio团队开发的一款开源文本转语音（TTS）模型，支持多语言的语音合成和识别。它采用先进的深度学习技术，能够生成自然流畅的语音，并提供高质量的语音转文字功能。FishSpeech 支持声音克隆，仅需15秒的音频样本即可生成相似语音。它还支持本地部署，用户可以在个人设备上轻松运行，仅需4GB显存。FishSpeech 广泛应用于内容创作、教育、虚拟助手、游戏和辅助工具等领域，为语音交互提供了强大的技术支持。

要求

GPU 内存: 4GB (用于推理), 8GB (用于微调)
系统: Linux, Windows

下载模型

克隆FishSpeech仓库：

git clone https://github.com/fishaudio/fish-speech.git
cd fish-speech

下载模型权重：

git clone https://hf-mirror.com/fishaudio/fish-speech-1.5

或者手动下载模型文件，并放置在checkpoints/fish-speech-1.5目录下。

安装环境依赖

创建虚拟环境

conda create -n fish-speech python=3.10
conda activate fish-speech

安装PyTorch

pip install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 --index-url https://download.pytorch.org/whl/cu121

安装Fish-Speech

pip install -e .

安装Triton加速（可选）

pip install https://github.com/AnyaCoder/fish-speech/releases/download/v0.1.0/triton_windows-0.1.0-py3-none-any.whl

运行项目

启动WebUI服务：

python tools/run_webui.py

启动API服务：

python tools/api_server.py --listen 0.0.0.0:3003

使用WebUI进行语音合成：

打开浏览器，访问http://localhost:7860。
在WebUI中输入文本，上传参考音频（可选），然后点击“生成”按钮即可

查看全文

http://www.dtcms.com/a/129274.html

Windows 系统中安装 Git 并配置 GitHub 账户

C++基本语法

【C语言】--- 编译和链接

C语言程序环境和预处理详解

centos7.9升级OpenSSL 1.1.1

代码随想录算法训练营Day23

强化学习的epsilon，应该越来越大？还是越来越小？为什么？

面向对象高级(2)

Apache与Nginx网站压测对比

C语言共用体和typedef

集群搭建Weblogic服务器！

C++学习之金融类安全传输平台项目git

第十五届蓝桥杯C/C++B组省赛真题讲解（分享去年比赛的一些真实感受）

智体知识库：poplang编程语言是什么？

具身机器人中AI（DEEPSEEK）与PLC、驱动器协同发展研究：突破数据困境与指令精确控制（1）

System 应用访问 Vendor 库的详细方案

如何将数组转换为对象（键为数组元素，值为 true）

用 Vue 3 + D3.js 实现动态数据流图

noscript 标签是干什么的

Linux上位机开发实践（关于Qt的移植)

具身智能零碎知识点（三）：深入解析 “1D UNet”：结构、原理与实战

Python_levl2.3函数

【AutoTest】自动化测试工具大全（Python）

限流、降级、熔断、隔离？

【Hyperlane 】轻松实现大文件分块上传！

六、测试分类

Python中NumPy的逻辑和比较

API 请求失败时的处理方法

如何使用MaxScript+dotNet在UI中显示图像？

大模型LLM表格报表分析：markitdown文件转markdown，大模型markdown统计分析

要求

下载模型

安装环境依赖

运行项目

相关文章：