当前位置: 首页 > news >正文

whisper 语音识别的安装与使用

Whisper 是由OpenAI开发的开源自动语音识别(ASR)模型,不仅支持音频转录,还可以用于视频转录。通过调用ffmpeg处理视频,支持主流音视频格式的转录‌。

安装

安装ffmpeg:下载ffmpeg,Releases · BtbN/FFmpeg-Builds · GitHub,

找到“ffmpeg-master-latest-win64-gpl.zip”版本下载,可解压在D盘,之后将其配置在环境变量中。

安装Git

使用安装包安装,也需要配置在环境变量中。Git - Downloading Package

安装torch:可在PyTorch中选择对应的环境的安装命令,如:

pip3 install torch torchvision torchaudio

使用如下命令安装 whisper:

pip install git+https://github.com/openai/whisper.git,再执行 pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git

安装中遇到问题:

开始创建的虚拟环境用的是3.11的Python,重新创建使用3.9的Python,问题未解决。

替换安装命令:pip install -U openai-whisper -i https://pypi.tuna.tsinghua.edu.cn/simple

安装成功,可使用 whisper --help 验证。

使用

准备一个mp3格式的音频做测试。

命令行调用

cmd命令进入音频文件目录,命令whisper audio.mp3,首次使用会自动下载模型,保存位置:

也可以在命令中增加参数设置:

–model MODEL 选择模型
从小到大依次为:tiny、base、small、medium、large

–output_format srt 可以只生成srt文件,其他的包括:[“txt”, “vtt”, “srt”, “tsv”, “json”, “all”]

选择模型的保存地址 --model_dir MODEL_DIR 默认为:~/.cache/whisper/small.pt

whisper input.mp4 -o outputFile -f srt --language Chinese
-o:指定srt文件生成的路径
-f:指定只生成srt文件,所有:[“txt”, “vtt”, “srt”, “tsv”, “json”]
–language:指定音视频的语言

python调用

import whisper
model = whisper.load_model("./models/large-v3-turbo.pt")  # 将模型保存在项目目录,加载模型
result = model.transcribe("./data/audio/audio.mp3")
print(result["text"])

参考:

https://zhuanlan.zhihu.com/p/595691785

https://openai.com/index/whisper/

whisper安装说明_linux whisper pt文件位置-CSDN博客

https://github.com/openai/whisper

相关文章:

  • 如何判断数据来源缓存还是数据库
  • 什么是扩散模型(Diffusion Models)?为什么它们是图像生成的一大进步?
  • 【CodeReview】Jupiter(Eclipse插件)代码审查工具简介
  • anaconda安装使用+pytorch环境配置(cpu)+pycharm环境配置(详细教程)
  • 第十五届单片机模拟考试III
  • AI朝代应避免AI幻觉:分析与应对策略
  • JavaScript基础--01-JS简介
  • 神经网络与深度学习:案例与实践——第三章(1)
  • jetson orin nano学习(torch+OpenCV+yolov5+)
  • Nginx 基础使用(2025)
  • 大模型-qwen1.5-本地部署
  • 针对Docker配置常用镜像加速器站点
  • YOLO脚本合集
  • 基于SIMP算法的材料结构拓扑优化matlab仿真
  • 【32期获取股票数据API接口】如何用Python、Java等五种主流语言实例演示获取股票行情api接口之沪深A股融资融券历史走势股数据及接口API说明文档
  • Pseduo LiDAR(CVPR2019)
  • 【玩泰山派】2、制作buildroot镜像,并烧录
  • SQL Server 数据库实验报告
  • CAD插件实现:所有文字显示到列表、缩放、编辑——CAD-c#二次开发
  • 虚拟机第十三章-垃圾回收
  • 做网站常熟/无线网络优化是做什么的
  • 天津做淘宝网站/百度数字人内部运营心法曝光
  • 软件开发和网站开发有何不同/友情链接站长平台
  • 寿光做网站的公司/如何推广网址链接
  • 个人网站电商怎么做/网络营销的主要内容包括
  • 非主营电子商务企业网站有哪些/湖南正规seo公司