当前位置: 首页 > news >正文

使用 Whisper 转写语音的完整教学

Whisper 安装

在常见的 Python 环境中,只需要一条指令即可安装开源版 Whisper:

pip install -U openai-whisper

如果系统没有 FFmpeg,需要自行安装,否则 Whisper 可能无法处理常见的 .mp3.wav.m4a 文件。

Whisper 的原始仓库中包含模型介绍、支持语言列表与部分示例代码:

Whisper GitHub
https://github.com/openai/whisper


基础转写示例(本地运行)

完成安装后,可以直接在命令行输入下列语句进行一次完整的语音转写:

whisper demo_audio.mp3 \--model medium \--language zh \--task transcribe \--output_format srt

执行后,Whisper 会自动解析音频并生成带时间轴的 .srt 文件。这种格式在视频剪辑、字幕生成和内容校对中都非常常用。

为了处理多段录音,可以将音频放入一个文件夹,并使用极简脚本进行批量转写:

#!/usr/bin/env bash
set -eAUDIO_PATH="audio_inputs"
MODEL="medium"for f in "$AUDIO_PATH"/*.mp3; dowhisper "$f" --model "$MODEL" --language zh --task transcribe --output_format srt
done

此类脚本可根据需要加入日志、时间标记、自动整理文件等功能。


使用 Whisper 生态工具

随着开源社区不断扩展,已经出现多个针对 Whisper 的加速库、图形工具与 Web UI,其中包含更快的 C++ 推理、更轻量的模型格式等。整理这些扩展的一个社区列表如下:

Whisper 工具生态列表(awesome-whisper)
https://github.com/sindresorhus/awesome-whisper

这类工具通常适合需要更高转写速度、希望图形化操作、或需要部署 Web 服务的场景。


使用 API 方式转写(无需本地模型)

若不希望在本地安装模型,也可以直接通过在线 API 上传音频并获得文本结果。这适合轻量任务、跨平台使用或没有 GPU 的环境。

官方音频处理接口说明文档如下:

OpenAI Audio / Whisper API 文档
https://platform.openai.com/docs/guides/audio

使用 curl 的最小示例结构如下(接口名称可能因版本更新而略有调整,以官方文档为准):

curl https://api.openai.com/v1/audio/transcriptions \-H "Authorization: Bearer $OPENAI_API_KEY" \-H "Content-Type: multipart/form-data" \-F "file=@demo_audio.mp3" \-F "model=whisper-1" \-F "response_format=text"

Python 示例也很简单:

import requestsurl = "https://api.openai.com/v1/audio/transcriptions"
headers = {"Authorization": f"Bearer {API_KEY}"}with open("demo_audio.mp3", "rb") as f:files = {"file": ("demo_audio.mp3", f, "audio/mpeg")}data = {"model": "whisper-1", "response_format": "text"}resp = requests.post(url, headers=headers, data=data, files=files)text = resp.text
print(text)

在教学或企业流程中,这种方式通常更容易整合进自动化平台。


输出结果的后处理方式

Whisper 输出的文本有时会包含口语化表达、停顿语气词或背景对话。一般在实际使用中,会进行以下简易处理:

  • 统一标点
  • 校对人名、地名与专业术语
  • 调整字幕显示的时长与行数
  • 按段落拆分用于写文章或整理会议纪要

这种加工方式不依赖任何复杂算法,通常用基础脚本即可完成。例如从 .srt 中抽取长句作为大纲:

from pathlib import Pathblocks = Path("demo_audio.srt").read_text(encoding="utf-8").split("\n\n")
outline = []for block in blocks:lines = block.split("\n")if len(lines) >= 3:text = " ".join(lines[2:])if len(text) > 40:outline.append(text)for o in outline:print("-", o)

这些简单方法足以满足日常的课堂记录、播客稿件梳理、内部会议文件生成等场景。

http://www.dtcms.com/a/612244.html

相关文章:

  • 建设部网站预应力资质做网站买域名要买几个后缀最安全
  • 郑州建站费用全网营销培训公司
  • 广东住房和建设局网站官网平台类网站建设价格表
  • 杭州手机网站制作佛山提供网站设计方案公司
  • 浙江电商网站建设销售php 网站部署到服务器
  • 做app护肤网站简单的编程代码
  • 旅行社英文模板网站购物平台最新排名
  • 网站手机网站制作怎样下载网页的视频
  • 北川建设局网站温州网站建设优化
  • 时尚网站建设ui交互设计用什么软件
  • 学校网站建设培训方案模板wordpress内容打不开
  • 昆明旅游网站建设建设银行租房平台网站6
  • 中国关于生态文明建设的网站王占山将军是什么军衔
  • 南京建设人才网站余杭区高端网站建设
  • 河北邯郸wap网站建设广告公司记账管理软件
  • 网站平台方案SEO做得最好的网站
  • 网站排名优化学习wordpress置顶文章调用
  • 中国造价工程建设管理协会网站上海市装修公司
  • flask网站开发找广告设计
  • 深圳营销型网站seo手机网站后台管理系统
  • 长春移动端网站设计云端+文明实践活动
  • 建设一个货架网站网站建设 信息化程度
  • 开发企业网站多少钱定制化网站开发公司
  • 佛山新网站制作代理商旅游公司网站 优帮云
  • 哪里有最新的网站源码电商网站用什么框架做
  • 网站脑图怎么做wordpress4.7.5下载
  • 大同建设银行保安招聘网站锐途网站建设
  • 网站更新内容vs2017移动网站开发
  • 买表的网站商城小程序开发需要多少钱
  • 河北建设工程信息网站旧版百度网址大全下载