当前位置: 首页 > news >正文

音视频学习(四十八):PCM和WAV

PCM

基本原理

脉冲编码调制(PCM)是一种将模拟音频信号转换为数字信号的编码方法,其核心是通过采样、量化和编码三个步骤实现信号的数字化。

  • 采样(Sampling)
    采样是将连续的模拟音频信号在时间轴上离散化的过程。根据奈奎斯特-香农采样定理,采样频率需至少为信号最高频率的两倍,以避免混叠效应。例如,CD音频采用44.1kHz采样率,可捕捉最高22.05kHz的音频信号,覆盖人耳可感知的20Hz-20kHz范围。
  • 量化(Quantization)
    量化是将采样的模拟信号幅度映射到离散的数字级别。量化级别数由位深度(Bit Depth)决定,例如16位量化可表示(2^{16} = 65,536)个级别。位深度越高,量化误差越小,音频保真度越高。
  • 编码(Encoding)
    编码将量化后的值转换为二进制数据,通常以线性PCM(Linear PCM,LPCM)形式存储。LPCM直接记录每个采样点的幅度值,未经压缩,保留了原始信号的完整信息。

PCM的数学模型可表示为: [ x[n] = Q[S(t_n)] ] 其中,(x[n])为数字信号,(S(t_n))为采样时刻的模拟信号值,(Q[\cdot])为量化函数。

采样率44.1KHz,采样大小为16bit,双声道的PCM编码的WAV文件,它的码率为44.1K * 16 * 2 = 1411.2Kb/s。

位深(Bit Depth)

音频位深(Bit Depth)是数字音频中衡量每次采样所使用的位数,它决定了每个采样点可以表示的幅度精度。通俗来讲,位深越大,声音的动态范围越广,音质越好。

概念

在模数转换(ADC)过程中,模拟信号被采样成离散的时间点,然后每个时间点的振幅值被量化成一个数字。位深就是这个量化过程中,用来记录每个振幅值的“数字位数”。

  • 更高的位深意味着更高的分辨率。就像用更高像素的相机拍照,位深越高,可以用来描述振幅的“阶梯”就越多,每个阶梯之间的距离就越小,从而能更精确地记录原始模拟信号的微小变化。

工作原理

位深的值通常是2的幂次方。例如:

  • 8位:可以表示 256 个不同的振幅值。
  • 16位(常见):可以表示 65,536 个不同的振幅值。
  • 24位:可以表示 16,777,216 个不同的振幅值。

这意味着,16位音频能以65,536个“阶梯”来表示声音的振幅,而24位音频则能用超过1600万个“阶梯”来表示。这个巨大的差距直接影响了音频的质量。

对音频的影响

位深主要影响两个关键的音频质量指标:动态范围量化噪声

动态范围(Dynamic Range)

动态范围是指音频信号中,最大音量(峰值)与最小音量(底噪)之间的差距。位深越高,动态范围就越大。

动态范围计算公式: 每增加1位,动态范围大约增加6分贝(dB)。 动态范围(dB)≈ 位深 × 6.02 + 1.76

位深动态范围(理论)
8位48 dB
16位96 dB
24位144 dB

人耳的听觉动态范围约为 120 dB,所以 16 位可满足一般听音需求,而 24 位适合高保真录音与母带处理

量化噪声(Quantization Noise)

量化是不可避免地会引入误差,因为模拟信号是连续的,而数字信号是离散的。这种误差被称为量化噪声

  • 位深越低,量化步长(两个相邻振幅值之间的距离)越大,量化误差就越明显,听起来就像是一种底层的“嘶嘶声”或“嗡嗡声”,尤其是在声音非常微弱的部分。
  • 位深越高,量化步长越小,量化误差就越不明显,量化噪声也随之降低。这使得高位深的音频在播放安静的音乐片段或捕捉细腻的声音时,听起来更加干净和纯净。

用途

位深文件大小音质应用场景
8 位旧游戏、电话语音、老硬件
16 位CD、MP3、日常听音
24 位专业录音、混音、母带制作
32 位 float更大超高广播级录音、工程保留浮点数据,避免削波

位深 vs 采样率

项目位深(Bit Depth)采样率(Sampling Rate)
表示内容每个采样的精度每秒采样的次数
单位位(bit)赫兹(Hz)
影响动态范围、细节保留频率响应范围(是否保留高音)
类比像素的“色深”像素的“数量/分辨率”

常见格式与支持的位深

音频格式支持的位深
WAV8、16、24、32 位整数/浮点
FLAC支持压缩的 16/24 位音频
MP3/AAC支持 16 位 PCM 编码
DSD位深为 1 位(特殊编码方式)
PCM(原始)任意整数位深

采样率

定义

音频采样率(Sampling Rate)是指在模数转换过程中,每秒对模拟音频信号采样的次数,单位为赫兹(Hz)或千赫兹(kHz)。例如,44.1kHz的采样率表示每秒采集44,100个样本。采样率决定了数字音频在时间轴上的分辨率,直接影响重现信号的频率范围和音质。

原理

音频采样率基于奈奎斯特-香农采样定理(Nyquist-Shannon Sampling Theorem),该定理指出:要无失真地重现模拟信号,采样频率必须至少为信号最高频率的两倍。数学表达为: [ f_s \geq 2 \cdot f_{\text{max}} ] 其中,( f_s )为采样频率,( f_{\text{max}} )为信号的最高频率。

例如,人耳可感知的音频频率范围为20Hz至20kHz,因此采样率至少需为40kHz。实际应用中,常用44.1kHz或48kHz以覆盖人耳听觉范围,并留有余量以减少混叠效应(Aliasing)。

采样过程通常由采样保持电路(Sample-and-Hold Circuit)完成,该电路在固定时间间隔内捕获模拟信号的瞬时幅度,并将其转换为离散的数字值。采样率越高,时间分辨率越高,数字信号越接近原始模拟信号。

常见标准

音频采样率因应用场景不同而有多种标准,以下是常见的采样率及其用途:

  1. 8kHz
    • 用途:电话通信、语音录音。
    • 特点:足以捕捉300Hz-3.4kHz的语音频率范围,数据量小,适合低带宽传输。
    • 示例:传统电话系统、VoIP。
  2. 16kHz
    • 用途:语音识别、语音合成。
    • 特点:提供更高的语音清晰度,适合人工智能语音处理。
    • 示例:语音助手(如Siri、Alexa)。
  3. 22.05kHz
    • 用途:低质量多媒体音频、早期数字音频设备。
    • 特点:能够捕捉部分音乐信号,但高频细节丢失,音质较差。
    • 示例:早期计算机音频、游戏音效。
  4. 44.1kHz
    • 用途:CD音频、音乐录制与播放。
    • 特点:覆盖人耳听觉范围(20Hz-20kHz),是消费级音频的标准采样率。
    • 示例:音乐CD、MP3、流媒体平台。
  5. 48kHz
    • 用途:专业音频、视频制作、广播。
    • 特点:略高于44.1kHz,提供更好的高频响应和抗混叠性能,广泛用于影视音效。
    • 示例:数字视频(DVD、蓝光)、专业录音设备。
  6. 96kHz
    • 用途:高解析度音频(Hi-Res Audio)、专业音乐制作。
    • 特点:捕捉更高频率的细节,适合高端音频设备和母带处理。
    • 示例:高保真音乐、录音室混音。
  7. 192kHz及以上
    • 用途:超高解析度音频、科学分析、沉浸式音频。
    • 特点:提供极高的时间分辨率,适合专业领域和发烧友设备,但数据量大。
    • 示例:高端DAC、空间音频、音频研究。

声道数

音频声道数(Audio Channel Count),简称声道,指的是在音频录制、混音和回放过程中,独立声音信号的数量。它决定了声音的定位感、空间感和环绕效果。

声道类型

单声道(Mono)

单声道音频只有一个独立的音频信号通道。无论声音源自何处,所有的声音信息都会被合并到这一个通道中。因此,当播放单声道音频时,无论你使用多少个扬声器,听到的声音都是相同的,没有方向感和空间感,声音仿佛都来自同一个点。

  • 应用场景:早期的广播、电话通信、以及一些为了保证声音清晰度的播客和录音。
立体声(Stereo)

立体声是目前最常见的音频格式,它使用两个独立的音频通道(左声道和右声道)。通过在左、右声道中调整声音的响度或时间延迟,可以模拟出声音在左右空间中的位置感,从而营造出更具空间感和真实感的听觉体验。当声音在两个扬声器之间移动时,我们能感知到其方向的变化。

  • 应用场景:几乎所有的音乐、电影、电视节目和广播都采用立体声格式。
多声道(Multichannel)

多声道系统使用三个或更多独立的音频通道,以实现更具沉浸感的环绕声效果。最经典的多声道格式是5.1声道

  • 5.1声道:由六个独立的声道组成:
    • 左声道(Left)右声道(Right):提供前方的立体声效果。
    • 中置声道(Center):主要负责对白和位于画面中央的声音,确保人声清晰且稳定。
    • 左环绕(Left Surround)右环绕(Right Surround):提供后方或侧面的环绕效果。
    • 低音增强声道(LFE, Low-Frequency Effects):俗称“.1声道”,专门负责重低音效果,如爆炸声或背景音乐中的低频部分。
  • 7.1声道:在5.1声道的基础上增加了两个声道,通常是“左后环绕”和“右后环绕”,进一步增强了后方的空间感和声音的精确度。
  • 应用场景:电影院、家庭影院系统、游戏等,旨在提供身临其境的听觉体验。
全景声(Immersive Audio)

全景声是多声道技术的最新发展,它不再局限于固定的声道数量,而是将声音作为**独立的“声音对象”**来处理。例如,杜比全景声(Dolby Atmos)或DTS:X。

  • 工作原理:全景声系统不仅仅将声音分配到固定的扬声器,而是记录下声音对象在三维空间中的位置信息。当播放时,系统会根据扬声器的数量和位置,动态地渲染这些声音对象,让声音可以在听众的周围甚至头顶上移动,形成真正的三维立体声场
  • 应用场景:现代影院、高端家庭影院、高端游戏和音乐制作,带来前所未有的沉浸感。

原理

音频声道数的实现涉及音频信号从录制到播放的整个流程:

  • 录制:通过多个麦克风捕获不同方向或位置的声音信号,每个麦克风对应一个声道。例如,立体声录音使用两个麦克风分别捕捉左右声场,多声道录音(如5.1)使用多个麦克风布置在不同位置以记录环绕声。
  • 模数转换(ADC):每个声道的模拟信号通过采样、量化和编码转换为数字信号。采样率决定时间分辨率,位深度决定幅度分辨率,声道数决定空间分辨率。
  • 存储:数字音频格式(如PCM、WAV、FLAC)将每个声道的采样数据独立存储。例如,立体声的WAV文件包含两个独立的数据流。
  • 数模转换(DAC)与播放:播放时,DAC将每个声道的数字信号转换为模拟信号,驱动对应的扬声器。扬声器的数量和位置需与声道数匹配,以重现空间效果。

声道数的数学表示与数据量相关。以PCM格式为例,数据速率计算公式为: [ \text{数据速率} = \text{采样率} \times \text{位深度} \times \text{声道数} ] 例如,44.1kHz采样率、16位深度、立体声(2声道)的PCM数据速率为: [ 44,100 \times 16 \times 2 = 1,411,200 , \text{bps} = 1.41 , \text{Mbps} ]

特性

  • 无损性:PCM是无损编码方式,理论上可完美重现原始模拟信号(在奈奎斯特频率范围内)。
  • 高保真:通过高采样率和高位深度,PCM能够提供接近原始信号的音质。
  • 数据量大:未压缩的PCM数据占用存储空间较大。例如,CD品质(44.1kHz,16位,立体声)的PCM数据速率为(44,100 \times 16 \times 2 = 1.41 , \text{Mbps})。
  • 简单性:PCM编码过程简单,无需复杂算法,易于硬件实现。
  • 通用性:PCM是许多音频格式(如WAV、AIFF)和设备的基础编码方式,具有广泛兼容性。

WAV

基本原理

WAV是一种由微软和IBM联合开发的音频文件格式,基于资源交换文件格式(RIFF,Resource Interchange File Format)。WAV文件通常存储未压缩的PCM数据,但也支持其他编码格式(如ADPCM、MP3)。WAV文件由多个数据块(Chunk)组成,主要包括:

  • 文件头(Header)
    文件头包含文件格式信息,如“RIFF”标识、文件大小和“WAVE”类型标志。
  • 格式块(Format Chunk)
    格式块描述音频数据的编码参数,包括采样率、位深度、声道数、编码方式(如PCM)等。
  • 数据块(Data Chunk)
    数据块存储实际的音频数据,通常为PCM格式的采样值序列。

WAV文件的结构如下:

RIFF Header- Chunk ID: "RIFF"- Chunk Size- Format: "WAVE"
Format Chunk- Chunk ID: "fmt "- Audio Format (e.g., 1 for PCM)- Number of Channels- Sample Rate- Byte Rate- Block Align- Bits Per Sample
Data Chunk- Chunk ID: "data"- Chunk Size- Audio Data (PCM samples)

特性

  • 高保真:WAV通常存储未压缩的PCM数据,能够提供与原始音频信号几乎无差别的音质。
  • 灵活性:WAV支持多种编码格式(如PCM、ADPCM、IEEE浮点数)和参数配置(如采样率、位深度、声道数)。
  • 兼容性:WAV是跨平台的标准音频格式,被几乎所有音频软件和硬件设备支持。
  • 文件体积大:由于存储未压缩数据,WAV文件占用空间较大。例如,1分钟CD品质的立体声WAV文件约为10MB。
  • 简单性:WAV文件结构简单,易于解析和处理,适合专业音频编辑和实时处理。

PCM与WAV的对比

特性PCMWAV
定义数字音频编码方式音频文件格式
本质信号表示方法,存储采样数据容器格式,通常存储PCM数据
压缩性无压缩,原始数据通常无压缩,但支持压缩格式
文件结构无特定文件结构,仅为数据流基于RIFF,包含文件头、格式块和数据块
应用场景音频信号处理、传输、存储音频文件存储、编辑、播放
存储空间数据量大,无元信息包含元信息,文件稍大
兼容性作为数据格式,广泛用于多种文件格式标准文件格式,跨平台支持
http://www.dtcms.com/a/311521.html

相关文章:

  • 基于深度学习的医学图像分析:使用GAN实现医学图像增强
  • 进阶向:Python生成艺术图案(分形、数学曲线)
  • MySQL索引解析
  • vue3pinia
  • Corrosion2靶机
  • Cyber Weekly #63
  • 搜索引擎评估革命:用户行为模型如何颠覆传统指标?
  • Sklearn 机器学习 数据聚类 用Numpy自己实现聚类
  • 【C++】类和对象(2)
  • 使用keil点亮stc8核心板的灯
  • 逻辑回归 银行贷款资格判断案列优化 交叉验证,调整阈值,下采样与过采样方法
  • MQTT 入门教程:MQTT工具调式
  • 堆----2.前 K 个高频元素
  • VirtualBox 的 HOST 键(主机键)是 右Ctrl 键(即键盘右侧的 Ctrl 键)笔记250802
  • 学习笔记:无锁队列的原理以及c++实现
  • Linux 高级 I/O 系统调用详解
  • Vue 响应式基础全解析2
  • Node.js中path模块的使用指南
  • InfluxDB 与 Node.js 框架:Express 集成方案(二)
  • 如何在`<link type=“icon“ href=`的`href`中写SVG并使用path标签? 笔记250802
  • 嵌入式 C 语言入门:递归与变量作用域学习笔记 —— 从概念到内存特性
  • 深入 Go 底层原理(十三):interface 的内部表示与动态派发
  • Javaweb————Apache Tomcat服务器介绍及Windows,Linux,MAC三种系统搭建Apache Tomcat
  • 技术文章:覆铜板的阻燃性
  • UniappDay07
  • 【AI】AIService(基本使用与指令定制)
  • cv快速input
  • 【云计算】云主机的亲和性策略(三):云主机 宿主机
  • Springboot原理和Maven高级
  • 操作系统:远程过程调用( Remote Procedure Call,RPC)