当前位置：首页 > news >正文

LLM 中语音编码与文本embeding的本质区别

news 2025/8/15 5:35:51

直接使用语音编码，是什么形式，和文本的区别

直接使用语音编码的形式

语音编码是将模拟语音信号转换为数字信号的技术，其核心是对语音的声学特征进行数字化表征，直接承载语音的物理声学信息。其形式可分为以下几类：

1. 基于波形的编码（保留原始波形特征）

脉冲编码调制（PCM）：最基础的语音编码形式，通过“采样-量化-编码”三步将连续语音波形离散化为数字信号。例如电话系统早期使用的G.711编码（8kHz采样，8bit量化），直接保存语音波形的振幅、频率等物理参数。
自适应差分脉冲编码（ADPCM）：通过记录相邻采样点的差值（而非绝对值）实现压缩，减少数据量（如G.726编码），但仍以波形还原为核心。

2. 基于参数的编码（提取语音特征参数）

不直接保存波形，而是提取语音的关键声学参数（如基频、共振峰等），通过参数重建语音。例如：

线性预测编码（LPC）：通过预测器模拟 vocal tract（声道）的共振特性，提取线性预测系数（LPC系数），仅保存残差信号和基频（F0），适用于低比特率场景（如卫星通信）。
码激励线性预测（CELP）：结合L

http://www.dtcms.com/a/330450.html

相关文章：

网络流初步

版本更新！FairGuard-Mac加固工具已上线！

【Unity3D实例-功能-移动】角色行走和奔跑的相互切换

Unity2022 + URP + Highlight plus V21配置和使用

Linux下使用Samba 客户端访问 Samba 服务器的配置（Ubuntu Debian）

一颗TTS语音芯片给产品增加智能语音播报能力

【无标题】卷轴屏手机前瞻：三星/京东方柔性屏耐久性测试进展

python自学笔记8 二维和三维可视化

【深度学习】深度学习基础概念与初识PyTorch

【C#补全计划】泛型约束

从0开始的中后台管理系统-7（订单列表功能实现，调用百度地图打点以及轨迹图动态展示）

数据结构--------堆

18.14 全量微调实战手册：7大核心配置提升工业级模型训练效率

阿里云RDS SQL Server实例之间数据库迁移方案

通信算法之313：FPGA中实现滑动相关消耗DSP资源及7045/7035的乘法器资源

工具栏扩展应用接入说明

React和Vue

Webpack Plugin 深度解析：从原理到实战开发指南

使用AI编程自动实现自动化操作

Java 设计模式-组合模式

python的艺术品收藏管理系统

数学建模层次分析法（AHP）笔记

C++入门自学Day11-- List类型的自实现

2025天府杯数学建模B题分析

Vite 为什么比 Webpack 快？原理深度分析

Mac 新电脑安装cocoapods报错ruby版本过低

一周学会Matplotlib3 Python 数据可视化-绘制面积图(Area)

如何用aiohttp实现每秒千次的网页抓取

机器视觉的磁芯定位贴合应用

PHP现代化全栈开发：实时应用与WebSockets实践