当前位置: 首页 > news >正文

音转文模型对比FunASR与Faster_whisper

FunASR简介

        FunASR是由阿里巴巴达摩院开源的语音识别工具包,提供包括语音识别(ASR)、语音活动检测(VAD)、标点恢复、语言模型、说话人验证、说话人分离及多说话人ASR等多种功能。FunASR工具包支持工业级语音识别模型的训练和微调,旨在帮助研究人员和开发者更高效地进行语音识别模型的研究和生产,推动语音识别技术的发展。FunASR基于提供预训练模型和易于使用的接口,使用户快速部署语音识别服务,满足不同场景的应用需求。2024年10月16日,FunASR新增支持Whisper-large-v3-turbo模型,进一步扩展在语音识别领域的应用能力。

  • 语音识别(ASR):将语音信号转换为文本信息。
  • 语音活动检测(VAD):识别语音信号中的有效语音部分,过滤掉静音或背景噪音。
  • 标点恢复:在语音识别结果中自动添加标点符号,提高文本的可读性。
  • 说话人验证:识别并验证说话人的身份。
  • 说话人分离:在多人对话中区分不同说话人的声音。
  • 多说话人ASR:处理多人同时说话的场景,识别和区分每个人的语音。

FunASR的技术原理

  • 自然语言处理(NLP):理解和生成自然语言,实现流畅对话。
  • 语音识别和合成:将用户的语音转换为文本,合成虚拟角色的语音输出。
  • 语音端点检测(VAD):基于FSMN-VAD模型,准确检测语音的起始和结束,提高语音识别的准确性。
  • 标点预测:集成标点预测模型,能在转录文本中自动添加标点符号,使转录结果更加符合阅读习惯,提升文本的可读性。

FunASR的项目地址

  • 项目官网:funasr.com
  • GitHub仓库:GitHub - modelscope/FunASR: A Fundamental End-to-End Speech Recognition Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Recognition, Voice Activity Detection, Text Post-processing etc.

代码实现

import json
import time
from funasr import AutoModel
# 计时开始
start_time = time.time()
# 初始化模型 - 使用支持热词的新模型
model = AutoModel(# model="iic/speech_paraformer-large-vad-punc-spk_asr_nat-zh-cn",model="iic/speech_seaco_paraformer_large_asr_nat-zh-cn-16k-common-vocab8404-pytorch",vad_model="iic/speech_fsmn_vad_zh-cn-16k-common-pytorch",punc_model="iic/punc_ct-transformer_zh-cn-common-vocab272727-pytorch",spk_model="iic/speech_campplus_sv_zh-cn_16k-common",vad_kwargs={"max_single_segment_time": 1000}
)
# 生成语音识别结果
res = model.generate(input="音频文件.wav",merge_vad=False,  
)# 提取所需字段
simplified_result = []
durations = []  # 用于存储每段的时间长度
print('总音频',res[0]['text'])#以下代码可以获取生成时间,需要输出时间的情况。
#for i,segment in enumerate(res):
#                    segmentText = res[0]['text']
#                    # print(self.device_clerk,i,"[%.2fs -> %.2fs] %s" % #(segment.start, segment.end, segmentText))
#                    print(f"{self.device_clerk} {i} [{segment.get('start', 0):.2f}s #-> {segment.get('end', 0):.2f}s] {segmentText}")

Faster_whisper

faster-whisper是基于OpenAI的Whisper模型的高效实现,它利用CTranslate2,一个专为Transformer模型设计的快速推理引擎。这种实现不仅提高了语音识别的速度,还优化了内存使用效率。faster-whisper的核心优势在于其能够在保持原有模型准确度的同时,大幅提升处理速度,这使得它在处理大规模语音数据时更加高效。

具体的调用代码:

from faster_whisper import WhisperModelmodel = WhisperModel(model_path, device="cuda", device_index=[cuda_index], compute_type="float16")segments, info = self.model.transcribe(audio_file, language="zh",vad_filter=True) for i,segment in enumerate(res):segmentText = res[0]['text']print(self.device_clerk,i,"[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segmentText))


文章转载自:

http://1Wnwsh0c.htktn.cn
http://p40xsu8A.htktn.cn
http://YVivRVqY.htktn.cn
http://PljaUDJH.htktn.cn
http://QfGL4fKU.htktn.cn
http://TDMXz5NU.htktn.cn
http://ttF8gkrt.htktn.cn
http://FdTyLFTV.htktn.cn
http://4ewHgiSs.htktn.cn
http://KnjjtsQn.htktn.cn
http://7C8m2IOg.htktn.cn
http://icSe5saM.htktn.cn
http://1AmqWkpC.htktn.cn
http://GrMI5IAP.htktn.cn
http://dS1JG6l7.htktn.cn
http://oBpLV8Ns.htktn.cn
http://Zwp8qUjK.htktn.cn
http://0sFYwbQe.htktn.cn
http://oJdhm79T.htktn.cn
http://buud0NJ8.htktn.cn
http://deB2nYs2.htktn.cn
http://cQSGQRBa.htktn.cn
http://MAoHhxPD.htktn.cn
http://SWF4hMyL.htktn.cn
http://nTFUfu9o.htktn.cn
http://1qIsWNE9.htktn.cn
http://Cdb7wS0h.htktn.cn
http://bsQpHG4Z.htktn.cn
http://hRVCfKWj.htktn.cn
http://yGeNzBo6.htktn.cn
http://www.dtcms.com/a/370884.html

相关文章:

  • 【YOLOv11】3.Pycharm配置
  • 常用配置文件
  • MySQL运维补充
  • JVM中如何调优新生代和老生代?
  • Transformer 架构的演进与未来方向(RNN → Self-Attention → Mamba)——李宏毅大模型2025第四讲笔记
  • 企业级监控方案对比:Zabbix vs Prometheus
  • 【Kubernetes】知识点总结6
  • 力扣3495. 使数组元素都变为零的最少操作次数 详解
  • 新能源研发,用新型实验记录本:ELN
  • 【LeetCode热题100道笔记】将有序数组转换为二叉搜索树
  • 【LeetCode热题100道笔记】二叉树的直径
  • 2023年ASOC SCI2区TOP,改进元启发式算法+考虑医护人员技能水平的家庭健康护理路径规划,深度解析+性能实测
  • wpf之TextBlock
  • Docker安装Ubuntu搭建Android SDK编译环境
  • Golang中逃逸现象, 变量“何时栈?何时堆?”
  • 我用Claude Code 开发了一个浏览器插件
  • LRU 算法和 LFU 算法有什么区别?
  • Cursor安装使用 与 Cursor网页端登录成功,客户端怎么也登陆不上
  • vue + ant-design-vue + vuedraggable 实现可视化表单设计器
  • 未来教育行业的 Go 服务开发解决方案与实践
  • 为什么ubuntu大文件拷贝会先快后慢?
  • SQL-窗口函数
  • buuctf-鸡藕椒盐味,[NPUCTF2020]EzRSA,[WUSTCTF2020]大数计算
  • OpsManage 项目启动脚本与 Docker 配置深度分析
  • 智能制造——解读97页汽配行业ERP整体解决方案【附全文阅读】
  • LIO-SAM 算法从入门到部署实践
  • ES6 核心特性详解:从变量声明到函数参数优化
  • 云手机在企业办公中的作用
  • 2025高教社国赛数学建模C题参考论文(含模型和代码)
  • RPC 和 HTTP 的区别