音视频学习(四十八):PCM和WAV
PCM
基本原理
脉冲编码调制(PCM)是一种将模拟音频信号转换为数字信号的编码方法,其核心是通过采样、量化和编码三个步骤实现信号的数字化。
- 采样(Sampling)
采样是将连续的模拟音频信号在时间轴上离散化的过程。根据奈奎斯特-香农采样定理,采样频率需至少为信号最高频率的两倍,以避免混叠效应。例如,CD音频采用44.1kHz采样率,可捕捉最高22.05kHz的音频信号,覆盖人耳可感知的20Hz-20kHz范围。 - 量化(Quantization)
量化是将采样的模拟信号幅度映射到离散的数字级别。量化级别数由位深度(Bit Depth)决定,例如16位量化可表示(2^{16} = 65,536)个级别。位深度越高,量化误差越小,音频保真度越高。 - 编码(Encoding)
编码将量化后的值转换为二进制数据,通常以线性PCM(Linear PCM,LPCM)形式存储。LPCM直接记录每个采样点的幅度值,未经压缩,保留了原始信号的完整信息。
PCM的数学模型可表示为: [ x[n] = Q[S(t_n)] ] 其中,(x[n])为数字信号,(S(t_n))为采样时刻的模拟信号值,(Q[\cdot])为量化函数。
采样率44.1KHz,采样大小为16bit,双声道的PCM编码的WAV文件,它的码率为44.1K * 16 * 2 = 1411.2Kb/s。
位深(Bit Depth)
音频位深(Bit Depth)是数字音频中衡量每次采样所使用的位数,它决定了每个采样点可以表示的幅度精度。通俗来讲,位深越大,声音的动态范围越广,音质越好。
概念
在模数转换(ADC)过程中,模拟信号被采样成离散的时间点,然后每个时间点的振幅值被量化成一个数字。位深就是这个量化过程中,用来记录每个振幅值的“数字位数”。
- 更高的位深意味着更高的分辨率。就像用更高像素的相机拍照,位深越高,可以用来描述振幅的“阶梯”就越多,每个阶梯之间的距离就越小,从而能更精确地记录原始模拟信号的微小变化。
工作原理
位深的值通常是2的幂次方。例如:
- 8位:可以表示 256 个不同的振幅值。
- 16位(常见):可以表示 65,536 个不同的振幅值。
- 24位:可以表示 16,777,216 个不同的振幅值。
这意味着,16位音频能以65,536个“阶梯”来表示声音的振幅,而24位音频则能用超过1600万个“阶梯”来表示。这个巨大的差距直接影响了音频的质量。
对音频的影响
位深主要影响两个关键的音频质量指标:动态范围和量化噪声。
动态范围(Dynamic Range)
动态范围是指音频信号中,最大音量(峰值)与最小音量(底噪)之间的差距。位深越高,动态范围就越大。
动态范围计算公式: 每增加1位,动态范围大约增加6分贝(dB)。 动态范围(dB)≈ 位深 × 6.02 + 1.76
位深 | 动态范围(理论) |
---|---|
8位 | 48 dB |
16位 | 96 dB |
24位 | 144 dB |
人耳的听觉动态范围约为 120 dB,所以 16 位可满足一般听音需求,而 24 位适合高保真录音与母带处理。
量化噪声(Quantization Noise)
量化是不可避免地会引入误差,因为模拟信号是连续的,而数字信号是离散的。这种误差被称为量化噪声。
- 位深越低,量化步长(两个相邻振幅值之间的距离)越大,量化误差就越明显,听起来就像是一种底层的“嘶嘶声”或“嗡嗡声”,尤其是在声音非常微弱的部分。
- 位深越高,量化步长越小,量化误差就越不明显,量化噪声也随之降低。这使得高位深的音频在播放安静的音乐片段或捕捉细腻的声音时,听起来更加干净和纯净。
用途
位深 | 文件大小 | 音质 | 应用场景 |
---|---|---|---|
8 位 | 小 | 低 | 旧游戏、电话语音、老硬件 |
16 位 | 中 | 中 | CD、MP3、日常听音 |
24 位 | 大 | 高 | 专业录音、混音、母带制作 |
32 位 float | 更大 | 超高 | 广播级录音、工程保留浮点数据,避免削波 |
位深 vs 采样率
项目 | 位深(Bit Depth) | 采样率(Sampling Rate) |
---|---|---|
表示内容 | 每个采样的精度 | 每秒采样的次数 |
单位 | 位(bit) | 赫兹(Hz) |
影响 | 动态范围、细节保留 | 频率响应范围(是否保留高音) |
类比 | 像素的“色深” | 像素的“数量/分辨率” |
常见格式与支持的位深
音频格式 | 支持的位深 |
---|---|
WAV | 8、16、24、32 位整数/浮点 |
FLAC | 支持压缩的 16/24 位音频 |
MP3/AAC | 支持 16 位 PCM 编码 |
DSD | 位深为 1 位(特殊编码方式) |
PCM(原始) | 任意整数位深 |
采样率
定义
音频采样率(Sampling Rate)是指在模数转换过程中,每秒对模拟音频信号采样的次数,单位为赫兹(Hz)或千赫兹(kHz)。例如,44.1kHz的采样率表示每秒采集44,100个样本。采样率决定了数字音频在时间轴上的分辨率,直接影响重现信号的频率范围和音质。
原理
音频采样率基于奈奎斯特-香农采样定理(Nyquist-Shannon Sampling Theorem),该定理指出:要无失真地重现模拟信号,采样频率必须至少为信号最高频率的两倍。数学表达为: [ f_s \geq 2 \cdot f_{\text{max}} ] 其中,( f_s )为采样频率,( f_{\text{max}} )为信号的最高频率。
例如,人耳可感知的音频频率范围为20Hz至20kHz,因此采样率至少需为40kHz。实际应用中,常用44.1kHz或48kHz以覆盖人耳听觉范围,并留有余量以减少混叠效应(Aliasing)。
采样过程通常由采样保持电路(Sample-and-Hold Circuit)完成,该电路在固定时间间隔内捕获模拟信号的瞬时幅度,并将其转换为离散的数字值。采样率越高,时间分辨率越高,数字信号越接近原始模拟信号。
常见标准
音频采样率因应用场景不同而有多种标准,以下是常见的采样率及其用途:
- 8kHz
- 用途:电话通信、语音录音。
- 特点:足以捕捉300Hz-3.4kHz的语音频率范围,数据量小,适合低带宽传输。
- 示例:传统电话系统、VoIP。
- 16kHz
- 用途:语音识别、语音合成。
- 特点:提供更高的语音清晰度,适合人工智能语音处理。
- 示例:语音助手(如Siri、Alexa)。
- 22.05kHz
- 用途:低质量多媒体音频、早期数字音频设备。
- 特点:能够捕捉部分音乐信号,但高频细节丢失,音质较差。
- 示例:早期计算机音频、游戏音效。
- 44.1kHz
- 用途:CD音频、音乐录制与播放。
- 特点:覆盖人耳听觉范围(20Hz-20kHz),是消费级音频的标准采样率。
- 示例:音乐CD、MP3、流媒体平台。
- 48kHz
- 用途:专业音频、视频制作、广播。
- 特点:略高于44.1kHz,提供更好的高频响应和抗混叠性能,广泛用于影视音效。
- 示例:数字视频(DVD、蓝光)、专业录音设备。
- 96kHz
- 用途:高解析度音频(Hi-Res Audio)、专业音乐制作。
- 特点:捕捉更高频率的细节,适合高端音频设备和母带处理。
- 示例:高保真音乐、录音室混音。
- 192kHz及以上
- 用途:超高解析度音频、科学分析、沉浸式音频。
- 特点:提供极高的时间分辨率,适合专业领域和发烧友设备,但数据量大。
- 示例:高端DAC、空间音频、音频研究。
声道数
音频声道数(Audio Channel Count),简称声道,指的是在音频录制、混音和回放过程中,独立声音信号的数量。它决定了声音的定位感、空间感和环绕效果。
声道类型
单声道(Mono)
单声道音频只有一个独立的音频信号通道。无论声音源自何处,所有的声音信息都会被合并到这一个通道中。因此,当播放单声道音频时,无论你使用多少个扬声器,听到的声音都是相同的,没有方向感和空间感,声音仿佛都来自同一个点。
- 应用场景:早期的广播、电话通信、以及一些为了保证声音清晰度的播客和录音。
立体声(Stereo)
立体声是目前最常见的音频格式,它使用两个独立的音频通道(左声道和右声道)。通过在左、右声道中调整声音的响度或时间延迟,可以模拟出声音在左右空间中的位置感,从而营造出更具空间感和真实感的听觉体验。当声音在两个扬声器之间移动时,我们能感知到其方向的变化。
- 应用场景:几乎所有的音乐、电影、电视节目和广播都采用立体声格式。
多声道(Multichannel)
多声道系统使用三个或更多独立的音频通道,以实现更具沉浸感的环绕声效果。最经典的多声道格式是5.1声道。
- 5.1声道:由六个独立的声道组成:
- 左声道(Left) 和 右声道(Right):提供前方的立体声效果。
- 中置声道(Center):主要负责对白和位于画面中央的声音,确保人声清晰且稳定。
- 左环绕(Left Surround) 和 右环绕(Right Surround):提供后方或侧面的环绕效果。
- 低音增强声道(LFE, Low-Frequency Effects):俗称“.1声道”,专门负责重低音效果,如爆炸声或背景音乐中的低频部分。
- 7.1声道:在5.1声道的基础上增加了两个声道,通常是“左后环绕”和“右后环绕”,进一步增强了后方的空间感和声音的精确度。
- 应用场景:电影院、家庭影院系统、游戏等,旨在提供身临其境的听觉体验。
全景声(Immersive Audio)
全景声是多声道技术的最新发展,它不再局限于固定的声道数量,而是将声音作为**独立的“声音对象”**来处理。例如,杜比全景声(Dolby Atmos)或DTS:X。
- 工作原理:全景声系统不仅仅将声音分配到固定的扬声器,而是记录下声音对象在三维空间中的位置信息。当播放时,系统会根据扬声器的数量和位置,动态地渲染这些声音对象,让声音可以在听众的周围甚至头顶上移动,形成真正的三维立体声场。
- 应用场景:现代影院、高端家庭影院、高端游戏和音乐制作,带来前所未有的沉浸感。
原理
音频声道数的实现涉及音频信号从录制到播放的整个流程:
- 录制:通过多个麦克风捕获不同方向或位置的声音信号,每个麦克风对应一个声道。例如,立体声录音使用两个麦克风分别捕捉左右声场,多声道录音(如5.1)使用多个麦克风布置在不同位置以记录环绕声。
- 模数转换(ADC):每个声道的模拟信号通过采样、量化和编码转换为数字信号。采样率决定时间分辨率,位深度决定幅度分辨率,声道数决定空间分辨率。
- 存储:数字音频格式(如PCM、WAV、FLAC)将每个声道的采样数据独立存储。例如,立体声的WAV文件包含两个独立的数据流。
- 数模转换(DAC)与播放:播放时,DAC将每个声道的数字信号转换为模拟信号,驱动对应的扬声器。扬声器的数量和位置需与声道数匹配,以重现空间效果。
声道数的数学表示与数据量相关。以PCM格式为例,数据速率计算公式为: [ \text{数据速率} = \text{采样率} \times \text{位深度} \times \text{声道数} ] 例如,44.1kHz采样率、16位深度、立体声(2声道)的PCM数据速率为: [ 44,100 \times 16 \times 2 = 1,411,200 , \text{bps} = 1.41 , \text{Mbps} ]
特性
- 无损性:PCM是无损编码方式,理论上可完美重现原始模拟信号(在奈奎斯特频率范围内)。
- 高保真:通过高采样率和高位深度,PCM能够提供接近原始信号的音质。
- 数据量大:未压缩的PCM数据占用存储空间较大。例如,CD品质(44.1kHz,16位,立体声)的PCM数据速率为(44,100 \times 16 \times 2 = 1.41 , \text{Mbps})。
- 简单性:PCM编码过程简单,无需复杂算法,易于硬件实现。
- 通用性:PCM是许多音频格式(如WAV、AIFF)和设备的基础编码方式,具有广泛兼容性。
WAV
基本原理
WAV是一种由微软和IBM联合开发的音频文件格式,基于资源交换文件格式(RIFF,Resource Interchange File Format)。WAV文件通常存储未压缩的PCM数据,但也支持其他编码格式(如ADPCM、MP3)。WAV文件由多个数据块(Chunk)组成,主要包括:
- 文件头(Header)
文件头包含文件格式信息,如“RIFF”标识、文件大小和“WAVE”类型标志。 - 格式块(Format Chunk)
格式块描述音频数据的编码参数,包括采样率、位深度、声道数、编码方式(如PCM)等。 - 数据块(Data Chunk)
数据块存储实际的音频数据,通常为PCM格式的采样值序列。
WAV文件的结构如下:
RIFF Header- Chunk ID: "RIFF"- Chunk Size- Format: "WAVE"
Format Chunk- Chunk ID: "fmt "- Audio Format (e.g., 1 for PCM)- Number of Channels- Sample Rate- Byte Rate- Block Align- Bits Per Sample
Data Chunk- Chunk ID: "data"- Chunk Size- Audio Data (PCM samples)
特性
- 高保真:WAV通常存储未压缩的PCM数据,能够提供与原始音频信号几乎无差别的音质。
- 灵活性:WAV支持多种编码格式(如PCM、ADPCM、IEEE浮点数)和参数配置(如采样率、位深度、声道数)。
- 兼容性:WAV是跨平台的标准音频格式,被几乎所有音频软件和硬件设备支持。
- 文件体积大:由于存储未压缩数据,WAV文件占用空间较大。例如,1分钟CD品质的立体声WAV文件约为10MB。
- 简单性:WAV文件结构简单,易于解析和处理,适合专业音频编辑和实时处理。
PCM与WAV的对比
特性 | PCM | WAV |
---|---|---|
定义 | 数字音频编码方式 | 音频文件格式 |
本质 | 信号表示方法,存储采样数据 | 容器格式,通常存储PCM数据 |
压缩性 | 无压缩,原始数据 | 通常无压缩,但支持压缩格式 |
文件结构 | 无特定文件结构,仅为数据流 | 基于RIFF,包含文件头、格式块和数据块 |
应用场景 | 音频信号处理、传输、存储 | 音频文件存储、编辑、播放 |
存储空间 | 数据量大,无元信息 | 包含元信息,文件稍大 |
兼容性 | 作为数据格式,广泛用于多种文件格式 | 标准文件格式,跨平台支持 |