FunASR语音识别框架流式识别模型切换
模型配置差异
不支持流式的模型组合
- ASR模型路径:
damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx
- 标点模型路径:
damo/punc_ct-transformer_cn-en-common-vocab471067-large-onnx
支持流式的模型组合
- ASR模型路径:
damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-onnx
- 标点模型路径:
damo/punc_ct-transformer_zh-cn-common-vad_realtime-vocab272727-onnx
关键区别分析
ASR模型差异
非流式模型包含VAD(语音活动检测)和标点模块(-vad-punc
后缀),适用于整段音频处理。流式模型仅包含基础ASR功能(无VAD和标点集成),依赖外部实时分段处理。
标点模型差异
非流式标点模型支持中英混合文本(cn-en
),设计为离线处理。流式标点模型专为中文实时场景优化(zh-cn
后缀),并标注realtime
特性,支持低延迟流水线。
应用场景建议
非流式模型
适合离线任务如录音文件转写,依赖完整上下文生成标点,输出结果需后期处理。模型集成VAD自动分割静音片段。
流式模型
适配实时场景如会议转录,需配合流式VAD分段输入。标点模型针对分片文本优化,延迟更低,但可能牺牲部分标点准确性。
部署注意事项
- 流式处理需额外实现音频分块逻辑(如WebSocket),非流式可直接提交完整音频。
- 标点模型需与ASR模型语言类型匹配,混合语言场景应选择
cn-en
版本。