当前位置: 首页 > news >正文

政安晨【零基础玩转开源AI项目】ACE-Step —— 迈向音乐生成基础模型的重要一步:AI自动谱曲与自动演唱的免费开源框架部署实践

政安晨的个人主页:政安晨

欢迎 👍点赞✍评论⭐收藏

希望政安晨的博客能够对您有所裨益,如有不足之处,欢迎在评论区提出指正!

目录

项目简介

开始部署

下载项目

虚拟环境

进入项目目录安装依赖

启动应用


项目简介

我们推出 ACE-Step,这是一款全新的开源音乐生成基础模型,它克服了现有方法的关键局限,并通过整体架构设计实现了领先的性能。当前的方法在生成速度、音乐连贯性和可控性之间存在固有权衡。例如,基于大语言模型(LLM)的模型(如 Yue、SongGen)在歌词对齐方面表现出色,但推理速度较慢且存在结构瑕疵。另一方面,扩散模型(如 DiffRhythm)能够实现更快的合成,但往往缺乏长距离的结构连贯性。🎼
🌉 ACE-Step 通过将基于扩散的生成与 Sana 的深度压缩自动编码器(DCAE)以及轻量级线性变换器相结合,弥合了这一差距。它在训练过程中进一步利用 MERT 和 m-hubert 来对齐语义表示(REPA),从而实现快速收敛。因此,我们的模型在 A100 GPU 上仅需 20 秒就能合成长达 4 分钟的音乐,比基于 LLM 的基线快 15 倍,同时在旋律、和声和节奏指标上实现了卓越的音乐连贯性和歌词对齐。⚡ 此外,ACE-Step 保留了细粒度的声学细节,支持诸如语音克隆、歌词编辑、混音和音轨生成(如 lyric2vocal、singing2accompaniment)等高级控制机制。🎚️
🔮 我们的愿景并非构建又一个端到端的文本转音乐管道,而是建立一个音乐人工智能基础模型:一个快速、通用、高效且灵活的架构,便于在其基础上训练子任务。这为开发强大的工具铺平了道路,这些工具能够无缝融入音乐艺术家、制作人和内容创作者的创作工作流程。简而言之,我们旨在打造音乐领域的 Stable Diffusion 时刻。🎸

项目地址如下:

ACE-Step: A Step Towards Music Generation Foundation Modelhttps://ace-step.github.io/代码地址如下:

https://github.com/ace-step/ACE-Stephttps://github.com/ace-step/ACE-Step我们先大概读一读论文,然后开始部署实践,开发人员千辛万苦让好东西出来了,我们努力学习一下下也是应该。

下面这段描述让小伙伴们放心了:

支持19种语言,包括中文,有了这个基础能力,我们就可以尽情地玩耍了。

创作吧创作,AI时代,你需要开源的助力,这是平衡商业的力量,让普通人拥有同样的技术自由,嘻嘻。

 论文地址:[2506.00045] ACE-Step: A Step Towards Music Generation Foundation ModelAbstract page for arXiv paper 2506.00045: ACE-Step: A Step Towards Music Generation Foundation Modelhttps://arxiv.org/abs/2506.00045

感兴趣的小伙伴可以详细阅读。

主要的工作框架如下:

主要的音乐生成模型的性能比较如下:

ACE-Step的综合评分在各方面都是比较平衡且优秀的。

细节不再赘述,我们开始部署。

开始部署

激动人心的时刻开始了,我们出发......

下载项目

git clone git@github.com:ace-step/ACE-Step.git

虚拟环境

我们依然是用conda,不知道怎么用的小伙伴在我的博客里搜conda关键词,会出来一些手把手的文章,小伙伴们不用客气,照着抄,拿着用。

创建一个python 3.10版本的conda,建议使用这个版本,比较稳定,准确来讲,应该是3.10.16版本。

所以,我这里把环境稍稍修改了一下下。


conda create -n ace_step python=3.10.16 -y

安装完毕之后激活它:

conda activate ace_step

进入项目目录安装依赖

cd ACE-Step

在安装依赖之前先装一下框架:

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126

这一步骤中请确保你的网络通畅,出错了就重新尝试。

在安装的过程中多说两句:AI资源是很多的,关键在于发掘,在这个时代,许多免费的东西创造的价值超过付费的,所以,对自己有点信心,好好学,掌握AI世界的密码,未来,模型将多如牛毛,会像现在的网络小说一样无穷无尽,这是信息世界的福气,但也是我们人类短暂寿命的“悲哀”,明白你想要的,找到你想要的,这是一件非常重要的事。

没有什么时候比现在更需要知道我们生命的意义,生活的意义,否则,你将会迷失在AI的洪流中,小伙伴们,我们共勉,为了更加清醒,为了不再浪费生命的时间,多多努力一些,为了你在意的人。嘻嘻。

好了,框架安装完成:

安装依赖:

pip install -e .

一定要在项目目录下执行上述命令哦。

我以前设置的pip的阿里云镜像,速度会更快,需要设置的小伙伴可以搜索我以前的博客文章。

如果安装时遇到某些错误不要怕,好好读读提示,都是大家验证过的,你肯定可以成功安装,最好的技巧就是重试一下,嘻嘻。

启动应用

acestep --port 7865

这是默认参数启动的方案,在执行时会自动下载模型。

可以选择指定checkpoint的方式:
 

acestep --checkpoint_path /path/to/checkpoint --port 7865 --device_id 0 --share true --bf16 true

可以单独执行推理(会自动下载模型):

python infer.py

模型的缓存位置在这里(不需要的话可以删除):

~/.cache/ace-step/checkpoints

下载模型的过程中可以去吃点东西,模型比较大,时间会比较长。

另外,在安装依赖的时候,你还可以这样执行:

pip install -r requirements.txt

好了,你尽情地玩耍吧:


http://www.dtcms.com/a/273674.html

相关文章:

  • RLHF:人类反馈强化学习 | 对齐AI与人类价值观的核心引擎
  • python实现DoIP基本通信(收发报文)
  • 第十二章:网络编程
  • Typescript -字面量类型
  • Linux的基础I/O
  • 买小屏幕的时候注意避坑
  • [Java 17] 无模版动态生成 PDF:图片嵌入与动态表格渲染实战
  • Linux磁盘限速(Ubuntu24实测)
  • 算法学习笔记:17.蒙特卡洛算法 ——从原理到实战,涵盖 LeetCode 与考研 408 例题
  • cnpm exec v.s. npx
  • C语言常见面试知识点详解:从入门到精通
  • 亿级流量下的缓存架构设计:Redis+Caffeine多级缓存实战
  • Web安全 - 基于 SM2/SM4 的前后端国产加解密方案详解
  • Flutter优缺点
  • Java学习第三十二部分——异常
  • 【爬虫】- 爬虫原理及其入门
  • 【批量文件查找】如何从文件夹中批量搜索所需文件复制到指定的地方,一次性查找多个图片文件并复制的操作步骤和注意事项
  • 基于Python的豆瓣图书数据分析与可视化系统【自动采集、海量数据集、多维度分析、机器学习】
  • 从Excel到PDF一步到位的台签打印解决方案
  • 学习笔记(34):matplotlib绘制图表-房价数据分析与可视化
  • Java小白-String
  • Allegro 17.4操作记录
  • 平板柔光屏与镜面屏的区别有哪些?技术原理与适用场景全解析
  • 飞算JavaAI:重构Java开发的“人机协同”新范式
  • Python数据读写与组织全解析(查缺补漏篇)
  • 使用Spring Boot和PageHelper实现数据分页
  • 【MySQL】———— 索引
  • 【字节跳动】数据挖掘面试题0016:解释AUC的定义,它解决了什么问题,优缺点是什么,并说出工业界如何计算AUC。
  • 【理念●体系】从零打造 Windows + WSL + Docker + Anaconda + PyCharm 的 AI 全链路开发体系
  • SQL开窗函数