当前位置: 首页 > news >正文

犀牛派A1上使用Faster Whisper完成音频转文字

项目介绍:Faster Whisper 是一个基于 CTranslate2 的 OpenAI Whisper 模型的高效实现。它是一个快速推理引擎,用于 Transformer 模型,相比 OpenAI 的 Whisper 模型,速度提升了 4 倍。该项目支持 Windows、Linux 和 macOS 平台,并且提供了多种优化选项,如 FP16 和 INT8 计算类型,以适应不同的硬件环境。

硬件:犀牛派A1
平台:QCS6490


一、环境准备

打开终端,在命令行界面中输入如下命令来安装Faster Whisper

sudo apt update && sudo apt install -y python3-pip ffmpeg
#因为这里使用CPU进行推理,安装 CPU 优化的 CTranslate2 和 Faster-Whisper
pip install faster-whisper
pip install ctranslate2 --no-deps # 确保不安装 GPU 相关依赖 
pip install faster-whisper

二、准备推理脚本

编写或拉取一个脚本,可命名为 test.py

from faster_whisper import WhisperModel
import sys
import time
def main():# 获取音频文件名if len(sys.argv) > 1:filename = sys.argv[1]else:filename = input("请输入要转录的音频文件名:")# 选择模型大小,例如 "base", "small", "medium", "large-v3"model_size = "small"# 加载模型并统计加载时间load_start = time.perf_counter()model = WhisperModel(model_size,device="cpu",compute_type="int8")load_duration = time.perf_counter() - load_startprint(f"模型加载耗时: {load_duration:.2f}秒")# 开始转录计时transcribe_start = time.perf_counter()# 自动检测语言转录segments, info = model.transcribe(filename, beam_size=5)# 立即处理所有分段以确保准确计时segments = list(segments)# 结束计时transcribe_duration = time.perf_counter() - transcribe_start# 输出结果print(f"\n检测到的语言: {info.language} (置信度: {info.language_probability:.2f})")print(f"音频时长: {info.duration:.2f}秒")print(f"转录处理耗时: {transcribe_duration:.2f}秒")print(f"总耗时(含加载): {load_duration + transcribe_duration:.2f}秒\n")# 输出逐句转录结果for segment in segments:print(f"[{segment.start:6.2f}s -> {segment.end:6.2f}s] {segment.text.strip()}")if __name__ == "__main__":main()

三、运行测试

可在浏览器上任意下载一个音频文件

将音频放入测试脚本的同级目录进行测试,脚本可自动检测语言

python3 test.py youshengshu.wma

请添加图片描述

http://www.dtcms.com/a/363794.html

相关文章:

  • 【Medical Image Analysis 1区TOP】用于MRI重建的全局感受野傅里叶卷积块
  • 《LINUX系统编程》笔记p8
  • FPGA时序约束(四)--主时钟约束
  • ESLint 相关
  • 算法模板(Java版)_前缀和与差分
  • 2025大学生必考互联网行业证书排名​
  • Git 代码提交管理指南
  • 【鸿蒙面试题-6】LazyForEach 懒加载
  • 单多行文本溢出
  • 大数据毕业设计选题推荐-基于大数据的大学生就业因素数据分析系统-Spark-Hadoop-Bigdata
  • 从0到1掌握进度管理:核心概念解析+目标设定的新手友好指南!
  • Elasticsearch常用DSL快速查询指南
  • Linux一共有多少个版本?
  • 基于SpringBoot2+Vue2开发的储物柜管理系统
  • 详解STM32的完整启动流程
  • Java流程控制04——if选择结构(本文为个人学习笔记,内容整理自哔哩哔哩UP主【遇见狂神说】的公开课程。 > 所有知识点归属原作者,仅作非商业用途分享)
  • CentOS 7 服务器CPU突然飙升至100%?精准定位问题。
  • HBase Region
  • token存储方案
  • 告别传统照明!安科瑞 DALI 总线智能照明系统,解锁公建项目照明新体验
  • 机器人控制器开发(人形机器人产品设计)
  • 【C++模板】从起源到入门,小白必学泛型编程指南
  • 民间药方偏方网站整站源码 带数据PHP版
  • 【爬油管搜索视频软件】youtube爬虫工具,根据关键词采集搜到的视频数据
  • 分布式爬虫的全局请求间隔协调与IP轮换策略
  • 重磅!PS2021 和企业微信 5.0 可直接运行,统信兼容引擎 V3.3.2 全面升级!
  • 【最新Pr 2025安装包(Adobe Premiere Pro 2025 中文解锁版)安装包永久免费版下载安装教程】
  • 用了企业微信 AI 半年,这 5 个功能让我彻底告别重复劳动
  • 深度学习篇---DenseNet
  • 机器人控制器开发(整体架构2 Lerobot介绍)