当前位置：首页 > news >正文

【ASR学习笔记】：语音识别领域基本术语

news 2025/10/30 13:36:31

一、基础术语

ASR (Automatic Speech Recognition)
- 自动语音识别，把语音信号转换成文本的技术。
VAD (Voice Activity Detection)
- 语音活动检测，判断一段音频里哪里是说话，哪里是静音或噪音。
Acoustic Model（声学模型）
- 将语音的“声音特征”映射成概率分布，用于判断每个语音片段对应的音素（发音单元）。
Language Model（语言模型）
- 通过统计词语出现的概率，帮助识别结果更符合人类语言习惯（比如纠正听成“在家”和“在加”的问题）。
Decoder（解码器）
- 把声学模型和语言模型的结果结合起来，最终输出最可能的文本。

二、特征提取相关

MFCC (Mel-Frequency Cepstral Coefficients)
- 提取语音特征的常用方法，把声音变成模型能理解的数字特征。
Spectrogram（频谱图）
- 把音频的频率成分和变化画成图像，横轴是时间，纵轴是频率。
Feature Extraction（特征提取）
- 从原始音频中提取有用的特征信息，减少无用噪声，提高识别准确率。

三、模型架构

CTC (Connectionist Temporal Classification)
- 不需要每个音频片段都标对应文字，通过序列对齐来训练模型的算法，常用于实时语音识别。
Attention Mechanism（注意力机制）
- 模型自动关注重要的信息，提高长文本或者复杂语句的识别效果。
End-to-End Model（端到端模型）
- 不用单独的声学模型、语言模型等模块，直接从音频输入到文本输出，如Transformer、Conformer模型。
Conformer
- 一种当前效果很好的语音识别模型，结合了CNN和Transformer的优点，能更好处理语音时序特征。

四、性能指标

WER (Word Error Rate)
- 词错误率，衡量识别准确性的标准。公式：
WER = (替换 + 插入 + 删除的词数) / 总词数

越低越好。
CER (Character Error Rate)
- 字错误率，特别适用于中文语音识别，计算每个字的错误率。

五、实用工具和算法

Beam Search
- 一种解码算法，可以找到一组可能性最高的候选文本，而不是只给出最有可能的一个结果。
Greedy Search
- 每一步都选择概率最高的输出，但不一定是全局最优结果。
Punctuation Restoration（标点恢复）
- 在识别出来的纯文本中自动加上标点符号，提高可读性。
Streaming ASR（流式识别）
- 一边听一边识别，适合实时场景，比如在线会议字幕。
Offline ASR（离线识别）
- 等完整音频上传后，再统一识别，适合语音文件转录。
Hotword Boosting（热词增强）
- 针对特定词汇（如品牌名、人名）增加模型识别的优先级。

http://www.dtcms.com/a/185757.html

相关文章：

web 自动化之 Unittest 四大组件

一个.Net开发的、用于自动化测试Windows应用程序的开源框架

Wpf学习片段

从海洋生物找灵感：造个机器人RoboPteropod，它能在水下干啥？

当生产了~/qt-arm/bin/qmake，可以单独编译其他-源码的某个模块，如下，编译/qtmultimedia

Hadoop区别

ElasticSearch聚合操作案例

基于MCP的智能体架构设计：实现智能体与外部世界的无缝连接

【NextPilot日志移植】ULog

【免费】2005-2018年各省人均财政收支数据

HTTPS全解析：从证书签发到TLS握手优化

Qt for Android申请允许管理所有文件权限

[网络层]网络层设备路由器

使用基于ARM的低功耗微型单板计算机打造智能家居管理系统中枢

如何应对网站被爬虫和采集？综合防护策略与实用方案

ZYNQ处理器在发热后功耗增加的原因分析及解决方案

PDM采集数字麦克风数据

nvm管理node版本

安卓玩机工具-----安卓机型一款很好用的数据备份恢复软件支持云端备份

Qt创建项目

vue+threeJS 大理石贴图

WEB安全--RCE--webshell bypass2

Dagster Pipes系列-2：增强外部脚本与Dagster的交互能力

【Python】Python常用数据类型判断方法详解

Node.js中那些常用的进程通信方式

4.MySQL全量、增量备份与恢复

使用本地部署的 LLaMA 3 模型进行中文对话生成

【WPF】Opacity 属性的使用

uniapp｜实现手机通讯录、首字母快捷导航功能、多端兼容(H5、微信小程序、APP)

WebSocket的原理及QT示例