【ASR学习笔记】:语音识别领域基本术语
一、基础术语
- ASR (Automatic Speech Recognition)
- 自动语音识别,把语音信号转换成文本的技术。
- VAD (Voice Activity Detection)
- 语音活动检测,判断一段音频里哪里是说话,哪里是静音或噪音。
- Acoustic Model(声学模型)
- 将语音的“声音特征”映射成概率分布,用于判断每个语音片段对应的音素(发音单元)。
- Language Model(语言模型)
- 通过统计词语出现的概率,帮助识别结果更符合人类语言习惯(比如纠正听成“在家”和“在加”的问题)。
- Decoder(解码器)
- 把声学模型和语言模型的结果结合起来,最终输出最可能的文本。
二、特征提取相关
- MFCC (Mel-Frequency Cepstral Coefficients)
- 提取语音特征的常用方法,把声音变成模型能理解的数字特征。
- Spectrogram(频谱图)
- 把音频的频率成分和变化画成图像,横轴是时间,纵轴是频率。
- Feature Extraction(特征提取)
- 从原始音频中提取有用的特征信息,减少无用噪声,提高识别准确率。
三、模型架构
- CTC (Connectionist Temporal Classification)
- 不需要每个音频片段都标对应文字,通过序列对齐来训练模型的算法,常用于实时语音识别。
- Attention Mechanism(注意力机制)
- 模型自动关注重要的信息,提高长文本或者复杂语句的识别效果。
- End-to-End Model(端到端模型)
- 不用单独的声学模型、语言模型等模块,直接从音频输入到文本输出,如Transformer、Conformer模型。
- Conformer
- 一种当前效果很好的语音识别模型,结合了CNN和Transformer的优点,能更好处理语音时序特征。
四、性能指标
-
WER (Word Error Rate)
- 词错误率,衡量识别准确性的标准。公式:
WER = (替换 + 插入 + 删除的词数) / 总词数
越低越好。
-
CER (Character Error Rate)
- 字错误率,特别适用于中文语音识别,计算每个字的错误率。
五、实用工具和算法
- Beam Search
- 一种解码算法,可以找到一组可能性最高的候选文本,而不是只给出最有可能的一个结果。
- Greedy Search
- 每一步都选择概率最高的输出,但不一定是全局最优结果。
- Punctuation Restoration(标点恢复)
- 在识别出来的纯文本中自动加上标点符号,提高可读性。
- Streaming ASR(流式识别)
- 一边听一边识别,适合实时场景,比如在线会议字幕。
- Offline ASR(离线识别)
- 等完整音频上传后,再统一识别,适合语音文件转录。
- Hotword Boosting(热词增强)
- 针对特定词汇(如品牌名、人名)增加模型识别的优先级。