我用Cursor写了一个视频转文字工具,已开源,欢迎体验
一个基于 Whisper 的视频音频转文字工具,支持GPU加速,界面简洁,使用方便。
💻软件截图
✨ 特性
- 🎥 支持多种视频格式(mp4, avi, mov, wmv, flv, mkv等)
- 🔊 支持多种音频格式(mp3, wav, m4a等)
- 🚀 支持GPU加速,大幅提升转换速度
- 💡 智能选择最适合的模型
- 📂 支持批量处理
- 🔍 支持文件夹递归扫描
- 🛠 自动检查和安装依赖
- 🎯 自动下载所需组件
- 📝 输出带有时间戳的文本文件
- 🌏 优化支持中文识别
🖥 系统要求
- Windows 10 或更高版本
- 如果要使用GPU加速:
- NVIDIA显卡
- 最新版显卡驱动
- 建议显存≥4GB
📦 下载和安装
- 从 Releases 下载最新版本
- 解压到任意文件夹
- 双击运行
视频转文字工具.exe
- 首次运行时会自动安装必要的依赖
🚀 使用方法
- 启动程序
- 选择要转换的视频文件或文件夹
- 选择输出文件夹
- 选择合适的模型:
- ≥10GB 显存:large(最佳质量)
- ≥8GB 显存:medium(平衡速度和质量)
- ≥5GB 显存:small(平衡内存和质量)
- <5GB 显存:base(基本使用)
- CPU模式:base(适合CPU模式)
- 点击"开始转换"
🔧 技术细节
- 语音识别:OpenAI Whisper
- GUI框架:PyQt5
- 视频处理:FFmpeg
- GPU加速:PyTorch + CUDA
- 自动化部署:PyInstaller
📋 功能特点
智能模型选择
- 自动检测系统配置
- 推荐最适合的模型
- 防止显存溢出
批量处理
- 支持多文件选择
- 支持文件夹导入
- 显示处理进度和预计时间
GPU加速
- 自动检测GPU
- 支持CUDA加速
- 支持CPU回退模式
依赖管理
- 首次运行自动检查依赖
- 自动下载安装必要组件
- 显示详细的安装进度
🔍 常见问题
Q: 程序无法启动? A: 确保已安装最新的Visual C++运行库
Q: 转换速度很慢? A: 检查是否正确启用了GPU加速,可以点击"GPU诊断"按钮查看详情
Q: 显存不足? A: 尝试使用更小的模型,或切换到CPU模式
Q: 如何选择合适的模型? A: 程序会根据您的硬件配置自动推荐最适合的模型
🛠 开发相关
环境准备
pip install pyinstaller pillow openai-whisper torch torchvision torchaudio PyQt5
打包方法
# 生成图标python create_icon.py# 打包程序pyinstaller --clean --onefile --noconsole --icon=app.ico --name="视频转文字工具" videoToText.py
开源地址
Gitee:
https://gitee.com/lzy2018cn/video-totext
GitHub:
https://github.com/IAMLZY2018/VideoToText
成果物文件超过2G(实际2.4G左右)平台不允许上传,我放网盘了,欢迎体验:
点击跳转