部署Fish-Speech实现声音克隆及文本转语音
FishSpeech 是由Fish Audio团队开发的一款开源文本转语音(TTS)模型,支持多语言的语音合成和识别。它采用先进的深度学习技术,能够生成自然流畅的语音,并提供高质量的语音转文字功能。FishSpeech 支持声音克隆,仅需15秒的音频样本即可生成相似语音。它还支持本地部署,用户可以在个人设备上轻松运行,仅需4GB显存。FishSpeech 广泛应用于内容创作、教育、虚拟助手、游戏和辅助工具等领域,为语音交互提供了强大的技术支持。
要求
- GPU 内存: 4GB (用于推理), 8GB (用于微调)
- 系统: Linux, Windows
下载模型
克隆FishSpeech仓库:
git clone https://github.com/fishaudio/fish-speech.git
cd fish-speech
下载模型权重:
git clone https://hf-mirror.com/fishaudio/fish-speech-1.5
或者手动下载模型文件,并放置在checkpoints/fish-speech-1.5
目录下。
安装环境依赖
创建虚拟环境
conda create -n fish-speech python=3.10
conda activate fish-speech
安装PyTorch
pip install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 --index-url https://download.pytorch.org/whl/cu121
安装Fish-Speech
pip install -e .
安装Triton加速(可选)
pip install https://github.com/AnyaCoder/fish-speech/releases/download/v0.1.0/triton_windows-0.1.0-py3-none-any.whl
运行项目
启动WebUI服务:
python tools/run_webui.py
启动API服务:
python tools/api_server.py --listen 0.0.0.0:3003
使用WebUI进行语音合成:
- 打开浏览器,访问
http://localhost:7860
。 - 在WebUI中输入文本,上传参考音频(可选),然后点击“生成”按钮即可