当前位置：首页 > news >正文

《Librosa ：一个专为音频信号处理和音乐分析设计的Python库》

news 2025/7/15 7:42:26

Librosa是一个专为音频信号处理和音乐分析设计的Python库。它提供了丰富的工具，可用于音频加载、特征提取、可视化以及音频信号的各种变换操作。下面为你详细介绍它的主要功能和使用示例：
在这里插入图片描述

主要功能

音频加载与处理：能轻松加载不同格式的音频文件，并且可以对音频进行重采样等处理。
特征提取：支持提取MFCCs、谱图、色度图等多种音频特征。
音高与节拍分析：可以分析音频的音高变化，检测节拍和节奏。
音频可视化：提供了将音频特征可视化的功能，便于直观分析。
音频合成与变换：能够进行音频的合成以及各种变换操作。

安装方法

使用pip可以很方便地安装Librosa：

pip install librosa

使用示例

以下是一些Librosa常见功能的使用示例：

1. 加载并播放音频

import librosa
import librosa.display
import matplotlib.pyplot as plt# 加载音频文件
audio_file = "your_audio_file.wav"
y, sr = librosa.load(audio_file)# 打印音频的基本信息
print(f"采样率: {sr} Hz")
print(f"音频长度: {len(y)/sr:.2f} 秒")# 波形可视化
plt.figure(figsize=(10, 4))
librosa.display.waveshow(y, sr=sr)
plt.title('音频波形')
plt.tight_layout()
plt.show()

2. 提取梅尔频谱图(Mel Spectrogram)

# 提取梅尔频谱图
S = librosa.feature.melspectrogram(y=y, sr=sr, n_mels=128, fmax=8000)# 转换为对数刻度(通常用dB表示)
S_dB = librosa.power_to_db(S, ref=np.max)# 可视化梅尔频谱图
plt.figure(figsize=(10, 4))
librosa.display.specshow(S_dB, sr=sr, x_axis='time', y_axis='mel')
plt.colorbar(format='%+2.0f dB')
plt.title('梅尔频谱图')
plt.tight_layout()
plt.show()

3. 提取MFCC特征

# 提取MFCC特征
mfccs = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=20)# 可视化MFCC
plt.figure(figsize=(10, 4))
librosa.display.specshow(mfccs, sr=sr, x_axis='time')
plt.colorbar()
plt.title('MFCC特征')
plt.tight_layout()
plt.show()

4. 节拍检测

# 节拍检测
tempo, beat_frames = librosa.beat.beat_track(y=y, sr=sr)print(f"估计的节拍速度: {tempo:.2f} BPM")# 将节拍帧转换为时间点
beat_times = librosa.frames_to_time(beat_frames, sr=sr)# 可视化节拍位置
plt.figure(figsize=(10, 4))
librosa.display.waveshow(y, sr=sr)
plt.vlines(beat_times, -1, 1, color='r', alpha=0.5, linestyle='--', label='Beats')
plt.legend()
plt.title('音频波形与检测到的节拍')
plt.tight_layout()
plt.show()

应用场景

Librosa在音频和音乐分析领域有广泛的应用，包括：

音乐信息检索（如识别音乐流派、歌手等）
语音识别与自然语言处理
环境声音分类（如检测警报声、动物叫声等）
音频内容分析（如分析音频情感、节奏等）
音乐生成与音频合成

如果需要更具体的功能实现，可以进一步探讨你感兴趣的方向！

使用Librosa对音频进行可视化，能让你直观地理解音频的特征和结构。下面为你介绍几种常见的音频可视化方式及其实现代码：

1. 波形图（Waveform）

波形图以时间为横轴、振幅为纵轴展示音频信号。

import librosa
import librosa.display
import matplotlib.pyplot as plt# 加载音频文件
audio_file = "your_audio_file.wav"
y, sr = librosa.load(audio_file)# 绘制波形图
plt.figure(figsize=(10, 4))
librosa.display.waveshow(y, sr=sr)
plt.title('音频波形图')
plt.xlabel('时间 (秒)')
plt.ylabel('振幅')
plt.tight_layout()
plt.show()

2. 频谱图（Spectrogram）

频谱图用颜色表示频率随时间的变化，有线性频谱图和对数频谱图两种。

# 计算STFT（短时傅里叶变换）
X = librosa.stft(y)
Xdb = librosa.amplitude_to_db(abs(X))# 绘制线性频谱图
plt.figure(figsize=(10, 4))
librosa.display.specshow(Xdb, sr=sr, x_axis='time', y_axis='hz')
plt.colorbar(format='%+2.0f dB')
plt.title('线性频谱图')
plt.tight_layout()
plt.show()# 绘制对数频谱图（更符合人耳感知）
plt.figure(figsize=(10, 4))
librosa.display.specshow(Xdb, sr=sr, x_axis='time', y_axis='log')
plt.colorbar(format='%+2.0f dB')
plt.title('对数频谱图')
plt.tight_layout()
plt.show()

3. 梅尔频谱图（Mel Spectrogram）

梅尔频谱图是一种特殊的频谱图，它的频率轴基于梅尔刻度，更符合人耳对音高的感知。

# 计算梅尔频谱图
S = librosa.feature.melspectrogram(y=y, sr=sr, n_mels=128, fmax=8000)
S_dB = librosa.power_to_db(S, ref=np.max)# 绘制梅尔频谱图
plt.figure(figsize=(10, 4))
librosa.display.specshow(S_dB, sr=sr, x_axis='time', y_axis='mel')
plt.colorbar(format='%+2.0f dB')
plt.title('梅尔频谱图')
plt.tight_layout()
plt.show()

4. MFCC特征图

MFCC（梅尔频率倒谱系数）是一种描述音频频谱包络的特征，常用于语音识别和音乐信息检索。

# 计算MFCC
mfccs = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=20)# 绘制MFCC特征图
plt.figure(figsize=(10, 4))
librosa.display.specshow(mfccs, sr=sr, x_axis='time')
plt.colorbar()
plt.title('MFCC特征图')
plt.tight_layout()
plt.show()

5. 色度图（Chromagram）

色度图展示了音乐的12个音高类别（C, C#, D, …, B）随时间的分布情况。

# 计算色度图
chroma = librosa.feature.chroma_stft(y=y, sr=sr)# 绘制色度图
plt.figure(figsize=(10, 4))
librosa.display.specshow(chroma, y_axis='chroma', x_axis='time')
plt.colorbar()
plt.title('色度图')
plt.tight_layout()
plt.show()

6. 多图组合展示

将多种可视化结果组合在一个图表中，便于全面分析音频。

# 创建一个包含多个子图的图表
fig, axs = plt.subplots(3, 1, figsize=(10, 12))# 波形图
librosa.display.waveshow(y, sr=sr, ax=axs[0])
axs[0].set_title('波形图')
axs[0].set_xlabel('时间 (秒)')
axs[0].set_ylabel('振幅')# 梅尔频谱图
S_dB = librosa.power_to_db(librosa.feature.melspectrogram(y=y, sr=sr), ref=np.max)
librosa.display.specshow(S_dB, sr=sr, x_axis='time', y_axis='mel', ax=axs[1])
axs[1].set_title('梅尔频谱图')
axs[1].set_xlabel('时间 (秒)')
axs[1].set_ylabel('频率 (Hz)')
fig.colorbar(axs[1].collections[0], ax=axs[1], format='%+2.0f dB')# MFCC图
mfccs = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=20)
librosa.display.specshow(mfccs, sr=sr, x_axis='time', ax=axs[2])
axs[2].set_title('MFCC特征图')
axs[2].set_xlabel('时间 (秒)')
axs[2].set_ylabel('MFCC系数')
fig.colorbar(axs[2].collections[0], ax=axs[2])plt.tight_layout()
plt.show()

可视化技巧

中文显示问题：若图表中的中文无法正常显示，可添加以下代码：
```
plt.rcParams["font.family"] = ["SimHei", "WenQuanYi Micro Hei", "Heiti TC"]
```

自定义颜色映射：通过cmap参数可以自定义颜色映射，例如：

librosa.display.specshow(S_dB, sr=sr, x_axis='time', y_axis='mel', cmap='viridis')

调整图表大小：使用figsize参数调整图表尺寸，例如：
```
plt.figure(figsize=(12, 6))
```

通过这些可视化方法，你可以更深入地理解音频数据的特征，为后续的音频处理和分析工作打下基础。

查看全文

http://www.dtcms.com/a/279019.html

阿里云可观测 2025 年 3 月产品动态

APK安装器（安卓端）一键解除VX限制！轻松安装各种手机应用

VScode设计平台demo＆前端开发中的常见问题

中级统计师-经济学基础知识-第五章国民收入决定的总收入-总支出模型

RK3568/3588 Android 12 源码默认使用蓝牙mic录音

【安卓笔记】进程和线程的基础知识

Educational Codeforces Round 170 (Rated for Div. 2)

第十六章 STL（仿函数、常用算法）

如何在 Ubuntu 上安装 Microsoft Edge 浏览器？

Solid Edge多项目并行，浮动许可如何高效调度？

cpp减小可执行文件、动态库大小

4.2TCP/IP

什么是微服务？-核心思想：化整为零，各自为战

单向链表、双向链表、栈、队列复习（7.14）

Windows 安装配置Claude Code

Java实现文件自动下载，XXL-Job定时任务中的HTTP文件下载最佳实践

C++-linux 7.文件IO（二）文件描述符、阻塞与非阻塞

.net天擎分钟降水数据统计

.NET控制台应用程序中防止程序立即退出

Flask服务器公外网访问，IPv6（亲测有效！！！！）

网络编程（TCP连接）

.NET ExpandoObject 技术原理解析

LeetCode经典题解：206、两数之和（Two Sum）

OV-DINO：基于语言感知选择性融合的统一开放词汇检测

深入解析ThreadLocal：线程隔离利器

C#自定义控件

c# 深度解析：实现一个通用配置管理功能，打造高并发、可扩展的配置管理神器

Typecho加密文章HTML结构自定义完全指南

在 Windows 主机和 VMware 虚拟机中的 Ubuntu 系统之间实现复制粘贴，

Spring IoC 容器实战：从解耦到集成的 6 大核心应用场景