当前位置: 首页 > news >正文

FunASR语音识别框架流式识别模型切换

模型配置差异

不支持流式的模型组合

  • ASR模型路径:damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx
  • 标点模型路径:damo/punc_ct-transformer_cn-en-common-vocab471067-large-onnx

支持流式的模型组合

  • ASR模型路径:damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-onnx
  • 标点模型路径:damo/punc_ct-transformer_zh-cn-common-vad_realtime-vocab272727-onnx

关键区别分析

ASR模型差异
非流式模型包含VAD(语音活动检测)和标点模块(-vad-punc后缀),适用于整段音频处理。流式模型仅包含基础ASR功能(无VAD和标点集成),依赖外部实时分段处理。

标点模型差异
非流式标点模型支持中英混合文本(cn-en),设计为离线处理。流式标点模型专为中文实时场景优化(zh-cn后缀),并标注realtime特性,支持低延迟流水线。

应用场景建议

非流式模型
适合离线任务如录音文件转写,依赖完整上下文生成标点,输出结果需后期处理。模型集成VAD自动分割静音片段。

流式模型
适配实时场景如会议转录,需配合流式VAD分段输入。标点模型针对分片文本优化,延迟更低,但可能牺牲部分标点准确性。

部署注意事项

  • 流式处理需额外实现音频分块逻辑(如WebSocket),非流式可直接提交完整音频。
  • 标点模型需与ASR模型语言类型匹配,混合语言场景应选择cn-en版本。
http://www.dtcms.com/a/349833.html

相关文章:

  • SpringBoot的条件装配原理
  • SpringBoot3集成Oauth2.1——10重启程序Token失效(RSA持久化)
  • Java项目-苍穹外卖_Day1
  • Visual Studio 2022调试Eigen库查看矩阵与向量的值
  • 大模型知识点之矩阵乘以向量
  • springboot:前后端调用(axios发送异步请求)
  • 那我现在有3个输入 9层神经元 每层神经元数为 3 9 3 5 6 2 3 9 8 请给出我所有的权重矩阵
  • 图论水题5
  • ansible的搭建与安装
  • BIO、NIO 和 AIO
  • 智慧城市SaaS平台/交通设施运行监测系统之桥梁运行监测、城市道路塌陷风险运行监测系统架构内容
  • v-slot 与 slot-scope区别
  • 开源零信任本地化部署实战指南:Keycloak + OpenZiti 完整方案
  • [element-plus] el-table在行单击时获取行的index
  • JAVA高级工程师--云服务模式多租户SAAS项目商业模式架构全景
  • 【数据可视化-98】2025年上半年地方财政收入Top 20城市可视化分析:Python + Pyecharts打造炫酷暗黑主题大屏
  • 【Java基础】快速掌握Java泛型机制:基本概念与具体应用
  • 工具系列:JsonViewKit
  • Frida 加密解密算法实现与应用指南
  • kafka 原理详解
  • 代码随想录算法训练营30天 | ​​01背包理论基础、416. 分割等和子集
  • Radxa Rock 5B vs Rock 5B+ 、香橙派、鲁班猫、正点原子及RK3588 的AI/音视频任务的选择
  • springboot项目每次启动关闭端口仍被占用
  • 第 93 场周赛:二进制间距、重新排序得到 2 的幂、优势洗牌、最低加油次数
  • Agent实战教程:LangGraph相关概念介绍以及快速入门
  • Reachability Query
  • 算法每日一题 | 入门-分支结构-肥胖问题
  • 【modbus学习】野火Modbus主机接收到数据后的完整函数调用流程
  • Ajax笔记(上)
  • Vue3在一个对象的list中,找出update_date最大的一条数据