当前位置：首页 > news >正文

语音识别 SenseVoice与FunASR对比

news 2025/10/9 1:20:08

阿里SenseVoice与FunASR功能对比

1. 功能定位

2. 技术特点

SenseVoice small 可以开源调用，large版没开源，需要调用sdk进行处理

FunASR开源了。

阿里云的SenseVoice和FunASR虽然同属语音处理技术领域，但它们在功能定位、技术特点和适用场景上有显著差异。以下是两者的主要区别：

SenseVoice
是FunAudioLLM项目中的语音理解模型，专注于多任务语音处理，包括自动语音识别（ASR）、情感识别（SER）、声学事件检测（AED）和语种识别（LID）。其核心优势在于多语言支持（50+语言）和低延迟推理（10秒音频仅需70毫秒）369。
示例应用：客服录音情感分析、会议语音事件检测（如笑声、掌声）58。
FunASR
是阿里巴巴达摩院开源的端到端语音识别框架，主打工业级ASR全链路处理，包括语音活动检测（VAD）、标点恢复、说话人分离等。其核心模型如Paraformer-streaming专为实时转录优化（延迟<200ms）247。
示例应用：企业会议实时转写、多说话人分离场景47。

对比项	SenseVoice	FunASR
模型架构	非自回归端到端（Small版）或编码器-解码器（Large版）	非自回归Paraformer架构
多语言支持	50+语言（Large版）	12种语言（中文、英文、粤语等）
延迟性能	10秒音频70ms（Small版）	流式模型延迟<200ms
扩展功能	情感识别、事件检测	VAD、标点恢复、说话人分离
部署场景	适合多模态交互、情感分析	适合企业级实时转录、长音频处理