LLM 中 语音编码与文本embeding的本质区别
直接使用语音编码,是什么形式,和文本的区别
直接使用语音编码的形式
语音编码是将模拟语音信号转换为数字信号的技术,其核心是对语音的声学特征进行数字化表征,直接承载语音的物理声学信息。其形式可分为以下几类:
1. 基于波形的编码(保留原始波形特征)
- 脉冲编码调制(PCM):最基础的语音编码形式,通过“采样-量化-编码”三步将连续语音波形离散化为数字信号。例如电话系统早期使用的G.711编码(8kHz采样,8bit量化),直接保存语音波形的振幅、频率等物理参数。
- 自适应差分脉冲编码(ADPCM):通过记录相邻采样点的差值(而非绝对值)实现压缩,减少数据量(如G.726编码),但仍以波形还原为核心。
2. 基于参数的编码(提取语音特征参数)
不直接保存波形,而是提取语音的关键声学参数(如基频、共振峰等),通过参数重建语音。例如:
- 线性预测编码(LPC):通过预测器模拟 vocal tract(声道)的共振特性,提取线性预测系数(LPC系数),仅保存残差信号和基频(F0),适用于低比特率场景(如卫星通信)。
- 码激励线性预测(CELP):结合L