当前位置：首页 > news >正文

政安晨【零基础玩转开源AI项目】ACE-Step —— 迈向音乐生成基础模型的重要一步：AI自动谱曲与自动演唱的免费开源框架部署实践

news 2025/11/6 2:00:30

政安晨的个人主页：政安晨

欢迎 👍点赞✍评论⭐收藏

希望政安晨的博客能够对您有所裨益，如有不足之处，欢迎在评论区提出指正！

项目简介

开始部署

下载项目

虚拟环境

进入项目目录安装依赖

启动应用

项目简介

我们推出 ACE-Step，这是一款全新的开源音乐生成基础模型，它克服了现有方法的关键局限，并通过整体架构设计实现了领先的性能。当前的方法在生成速度、音乐连贯性和可控性之间存在固有权衡。例如，基于大语言模型（LLM）的模型（如 Yue、SongGen）在歌词对齐方面表现出色，但推理速度较慢且存在结构瑕疵。另一方面，扩散模型（如 DiffRhythm）能够实现更快的合成，但往往缺乏长距离的结构连贯性。🎼
🌉 ACE-Step 通过将基于扩散的生成与 Sana 的深度压缩自动编码器（DCAE）以及轻量级线性变换器相结合，弥合了这一差距。它在训练过程中进一步利用 MERT 和 m-hubert 来对齐语义表示（REPA），从而实现快速收敛。因此，我们的模型在 A100 GPU 上仅需 20 秒就能合成长达 4 分钟的音乐，比基于 LLM 的基线快 15 倍，同时在旋律、和声和节奏指标上实现了卓越的音乐连贯性和歌词对齐。⚡ 此外，ACE-Step 保留了细粒度的声学细节，支持诸如语音克隆、歌词编辑、混音和音轨生成（如 lyric2vocal、singing2accompaniment）等高级控制机制。🎚️
🔮 我们的愿景并非构建又一个端到端的文本转音乐管道，而是建立一个音乐人工智能基础模型：一个快速、通用、高效且灵活的架构，便于在其基础上训练子任务。这为开发强大的工具铺平了道路，这些工具能够无缝融入音乐艺术家、制作人和内容创作者的创作工作流程。简而言之，我们旨在打造音乐领域的 Stable Diffusion 时刻。🎸

项目地址如下：

ACE-Step: A Step Towards Music Generation Foundation Modelhttps://ace-step.github.io/代码地址如下：

https://github.com/ace-step/ACE-Stephttps://github.com/ace-step/ACE-Step我们先大概读一读论文，然后开始部署实践，开发人员千辛万苦让好东西出来了，我们努力学习一下下也是应该。

下面这段描述让小伙伴们放心了：

支持19种语言，包括中文，有了这个基础能力，我们就可以尽情地玩耍了。

创作吧创作，AI时代，你需要开源的助力，这是平衡商业的力量，让普通人拥有同样的技术自由，嘻嘻。

论文地址：[2506.00045] ACE-Step: A Step Towards Music Generation Foundation ModelAbstract page for arXiv paper 2506.00045: ACE-Step: A Step Towards Music Generation Foundation Modelhttps://arxiv.org/abs/2506.00045

感兴趣的小伙伴可以详细阅读。

主要的工作框架如下：

主要的音乐生成模型的性能比较如下：

ACE-Step的综合评分在各方面都是比较平衡且优秀的。

细节不再赘述，我们开始部署。

开始部署

激动人心的时刻开始了，我们出发......

下载项目

git clone git@github.com:ace-step/ACE-Step.git

虚拟环境

我们依然是用conda，不知道怎么用的小伙伴在我的博客里搜conda关键词，会出来一些手把手的文章，小伙伴们不用客气，照着抄，拿着用。

创建一个python 3.10版本的conda，建议使用这个版本，比较稳定，准确来讲，应该是3.10.16版本。

所以，我这里把环境稍稍修改了一下下。


conda create -n ace_step python=3.10.16 -y

安装完毕之后激活它：

conda activate ace_step

进入项目目录安装依赖

cd ACE-Step

在安装依赖之前先装一下框架：

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126

这一步骤中请确保你的网络通畅，出错了就重新尝试。

在安装的过程中多说两句：AI资源是很多的，关键在于发掘，在这个时代，许多免费的东西创造的价值超过付费的，所以，对自己有点信心，好好学，掌握AI世界的密码，未来，模型将多如牛毛，会像现在的网络小说一样无穷无尽，这是信息世界的福气，但也是我们人类短暂寿命的“悲哀”，明白你想要的，找到你想要的，这是一件非常重要的事。

没有什么时候比现在更需要知道我们生命的意义，生活的意义，否则，你将会迷失在AI的洪流中，小伙伴们，我们共勉，为了更加清醒，为了不再浪费生命的时间，多多努力一些，为了你在意的人。嘻嘻。

好了，框架安装完成：

安装依赖：

pip install -e .

一定要在项目目录下执行上述命令哦。

我以前设置的pip的阿里云镜像，速度会更快，需要设置的小伙伴可以搜索我以前的博客文章。

如果安装时遇到某些错误不要怕，好好读读提示，都是大家验证过的，你肯定可以成功安装，最好的技巧就是重试一下，嘻嘻。

启动应用

acestep --port 7865

这是默认参数启动的方案，在执行时会自动下载模型。

可以选择指定checkpoint的方式：

acestep --checkpoint_path /path/to/checkpoint --port 7865 --device_id 0 --share true --bf16 true

可以单独执行推理（会自动下载模型）：

python infer.py

模型的缓存位置在这里（不需要的话可以删除）：

~/.cache/ace-step/checkpoints

下载模型的过程中可以去吃点东西，模型比较大，时间会比较长。

另外，在安装依赖的时候，你还可以这样执行：

pip install -r requirements.txt

好了，你尽情地玩耍吧：

查看全文

http://www.dtcms.com/a/273674.html

RLHF：人类反馈强化学习 | 对齐AI与人类价值观的核心引擎

python实现DoIP基本通信(收发报文)

第十二章：网络编程

Typescript -字面量类型

Linux的基础I/O

买小屏幕的时候注意避坑

[Java 17] 无模版动态生成 PDF：图片嵌入与动态表格渲染实战

Linux磁盘限速（Ubuntu24实测）

算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题

cnpm exec v.s. npx

C语言常见面试知识点详解：从入门到精通

亿级流量下的缓存架构设计：Redis+Caffeine多级缓存实战

Web安全 - 基于 SM2/SM4 的前后端国产加解密方案详解

Flutter优缺点

Java学习第三十二部分——异常

【爬虫】- 爬虫原理及其入门

【批量文件查找】如何从文件夹中批量搜索所需文件复制到指定的地方，一次性查找多个图片文件并复制的操作步骤和注意事项

基于Python的豆瓣图书数据分析与可视化系统【自动采集、海量数据集、多维度分析、机器学习】

从Excel到PDF一步到位的台签打印解决方案

学习笔记(34):matplotlib绘制图表-房价数据分析与可视化

Java小白-String

Allegro 17.4操作记录

平板柔光屏与镜面屏的区别有哪些？技术原理与适用场景全解析

飞算JavaAI：重构Java开发的“人机协同”新范式

Python数据读写与组织全解析（查缺补漏篇）

使用Spring Boot和PageHelper实现数据分页

【MySQL】———— 索引

【字节跳动】数据挖掘面试题0016：解释AUC的定义，它解决了什么问题，优缺点是什么，并说出工业界如何计算AUC。

【理念●体系】从零打造 Windows + WSL + Docker + Anaconda + PyCharm 的 AI 全链路开发体系

SQL开窗函数

项目简介

开始部署

下载项目

虚拟环境

进入项目目录安装依赖

启动应用

相关文章：