第七章:理解篇 - 对接云端语音识别,让助手“听懂”人话
本章系统阐述云端 ASR(Automatic Speech Recognition,自动语音识别)的核心算法与工程实践,结合本项目已有的音频采集与事件总线架构,提供可运行的 HTTP API 调用示例、错误处理与性能优化方案,并通过流程图、时序图与类图帮助你从“音频采集”走到“文字理解”。
7.1 揭秘云端ASR:为何选择API而非自研模型?
-
选型动机(工程视角)
- 成本与效率:自研 ASR 涉及海量数据、训练基础设施与持续维护;云 API 提供高质量模型与全球可用性,能缩短交付周期。
- 效果与覆盖:主流云 ASR 拥有多语种/口音支持与噪声鲁棒性,适配会议、客服、车载等场景。
- 迭代与稳定:API 版本升级与容错机制健全,便于在生产系统内平滑演进。
-
云端 ASR 基本结构
- 前端(Frontend):采样、预处理(HPF/AGC/NS/AEC/VAD)、分帧与特征提取(MFCC/Log-Mel)。
- 声学模型(AM, Acoustic Model):DNN-HMM(传统混合)、CTC(Connectionist Temporal Classification)、RNN-T(Recurrent Neural Network Transducer)、AED(Attention-based Encoder-Decoder)。
- 语言模型(LM, Language Model):n-gr
