当前位置: 首页 > news >正文

LLM 中 语音编码与文本embeding的本质区别

直接使用语音编码,是什么形式,和文本的区别

直接使用语音编码的形式

语音编码是将模拟语音信号转换为数字信号的技术,其核心是对语音的声学特征进行数字化表征,直接承载语音的物理声学信息。其形式可分为以下几类:

1. 基于波形的编码(保留原始波形特征)
  • 脉冲编码调制(PCM):最基础的语音编码形式,通过“采样-量化-编码”三步将连续语音波形离散化为数字信号。例如电话系统早期使用的G.711编码(8kHz采样,8bit量化),直接保存语音波形的振幅、频率等物理参数。
  • 自适应差分脉冲编码(ADPCM):通过记录相邻采样点的差值(而非绝对值)实现压缩,减少数据量(如G.726编码),但仍以波形还原为核心。
2. 基于参数的编码(提取语音特征参数)

不直接保存波形,而是提取语音的关键声学参数(如基频、共振峰等),通过参数重建语音。例如:

  • 线性预测编码(LPC):通过预测器模拟 vocal tract(声道)的共振特性,提取线性预测系数(LPC系数),仅保存残差信号和基频(F0),适用于低比特率场景(如卫星通信)。
  • 码激励线性预测(CELP):结合L
http://www.dtcms.com/a/330450.html

相关文章:

  • 网络流初步
  • 版本更新!FairGuard-Mac加固工具已上线!
  • 【Unity3D实例-功能-移动】角色行走和奔跑的相互切换
  • Unity2022 + URP + Highlight plus V21配置和使用
  • Linux下使用Samba 客户端访问 Samba 服务器的配置(Ubuntu Debian)
  • 一颗TTS语音芯片给产品增加智能语音播报能力
  • 【无标题】卷轴屏手机前瞻:三星/京东方柔性屏耐久性测试进展
  • python自学笔记8 二维和三维可视化
  • 【深度学习】深度学习基础概念与初识PyTorch
  • 【C#补全计划】泛型约束
  • 从0开始的中后台管理系统-7(订单列表功能实现,调用百度地图打点以及轨迹图动态展示)
  • 数据结构--------堆
  • 18.14 全量微调实战手册:7大核心配置提升工业级模型训练效率
  • 阿里云RDS SQL Server实例之间数据库迁移方案
  • 通信算法之313:FPGA中实现滑动相关消耗DSP资源及7045/7035的乘法器资源
  • 工具栏扩展应用接入说明
  • React和Vue
  • Webpack Plugin 深度解析:从原理到实战开发指南
  • 使用AI编程自动实现自动化操作
  • Java 设计模式-组合模式
  • python的艺术品收藏管理系统
  • 数学建模层次分析法(AHP)笔记
  • C++入门自学Day11-- List类型的自实现
  • 2025天府杯数学建模B题分析
  • Vite 为什么比 Webpack 快?原理深度分析
  • Mac 新电脑安装cocoapods报错ruby版本过低
  • 一周学会Matplotlib3 Python 数据可视化-绘制面积图(Area)
  • 如何用aiohttp实现每秒千次的网页抓取
  • 机器视觉的磁芯定位贴合应用
  • PHP现代化全栈开发:实时应用与WebSockets实践