只需几条命令,本地体验微软最新长文本语音合成 VibeVoice(支持中文)
🎧 只需几条命令,本地体验微软最新长文本语音合成 VibeVoice(支持中文)
完整运行包欢迎下载体验
想体验微软最新发布的高质量语音合成模型 VibeVoice-1.5B?它不仅支持自然流畅的中英文语音生成,还突破性支持长达90秒的上下文语音合成,真正实现“有情感、有逻辑”的长句朗读!
更棒的是:你只需几条命令,即可在本地一键部署,无需GPU也能运行,全程支持国内镜像加速,告别Hugging Face连接失败问题。
👇 跟着下面几步,5分钟内开启你的AI语音之旅!
✅ 一、准备工作
确保你的电脑已安装:
- Python 3.9+
- Git
- (可选)推荐使用
conda
或venv
创建独立环境
🚀 二、本地部署步骤(Windows PowerShell 示例)
打开 PowerShell(管理员或普通用户均可),依次执行以下命令:
1. 克隆项目代码
git clone https://github.com/microsoft/VibeVoice.git
这将下载微软官方开源的 VibeVoice 项目。
2. 进入项目目录
cd VibeVoice/
3. 安装为可编辑包(开发模式)
pip install -e .
使用
-e
模式安装,便于后续修改和调试。
4. 设置国内镜像源(关键!避免连接超时)
$env:HF_ENDPOINT="https://hf-mirror.com"
此步将 Hugging Face 下载地址替换为国内可用镜像,解决
preprocessor_config.json
等文件无法加载的问题。
5. 启动 Gradio 交互式界面(首次运行会自动下载模型)
python demo/gradio_demo.py --model_path microsoft/VibeVoice-1.5B --share
📌 注意:
- 首次运行会自动下载模型文件(约 10GB),请耐心等待。()
- 支持断点续传!如果中途断网,重新运行命令会继续下载。
- 下载完成后,后续启动无需等待。
- 可使用迅雷下载速度会快很多,但路径需要自己调整,不是本片重点,不做介绍。
✅ 执行成功后,系统会自动弹出浏览器窗口,打开 Gradio 界面:
Running on local URL: http://127.0.0.1:7860
Running on public URL: https://xxx.gradio.live
🎯 三、开始体验!
进入网页后,你可以:
- 输入任意中英文文本(支持长段落)
- 选择预设语音角色(如“温柔女声”、“沉稳男声”等)
- 调整语速、语调、情感风格
- 实时生成并播放语音,支持下载
.wav
文件
🔊 感受媲美真人主播的自然语音合成效果!
📌 四、常见问题
❓ 为什么提示“Could not load preprocessor_config.json”?
→ 忘记设置 HF_ENDPOINT
!请务必执行:
$env:HF_ENDPOINT="https://hf-mirror.com"
❓ 可以离线使用吗?
→ 可以!下载完成后,拔掉网络也能运行。后续启动只需:
python demo/gradio_demo.py --model_path microsoft/VibeVoice-1.5B --share
❓ 能用在商业项目中吗?
→ 请查阅 VibeVoice GitHub LICENSE。目前为 MIT 开源协议,允许商用,但需遵守相应条款。
🌟 结语
微软 VibeVoice 的发布,标志着长文本语音合成进入新阶段。通过以上简单几步,你已成功在本地部署这一前沿模型,无需依赖云服务,完全掌控数据隐私与生成质量。
赶快试试用它生成有情感的播客、有温度的有声书,或为你的AI助手配上自然人声吧!
🔗 项目地址:https://github.com/microsoft/VibeVoice
💬 欢迎在评论区分享你的生成语音体验!
📌 收藏+转发,让更多人轻松玩转AI语音!