当前位置: 首页 > news >正文

我的AI工具箱Tauri版-通用音频转文本

本模块支持FunAsrFasterWhisper两种模式,可批量处理音频视频文件,自动生成txt文本srt字幕,满足多种应用场景需求。 工具内置FunAsr,无需额外参数调整,特别适用于中文语音的高质量转录,确保识别准确率与自然流畅度。而FasterWhisper作为Whisper的升级版本,不仅提升了处理速度,还支持多语言转录,用户可灵活调整参数,以适应更复杂的应用需求。

该工具支持批量处理模式,可快速转换整个目录下的多个音视频文件,大幅提升工作效率。简洁直观的界面配合强大的语音识别技术,使用户能够轻松完成转录任务,广泛适用于字幕制作、内容存档、语音笔记等场景,为多媒体创作信息处理提供便捷支持。

文章目录

  • 操作使用
    • 文件配置
    • 参数配置
  • 应用示例
  • 开发与应用

操作使用

进入软件后可以直接搜索 通用音频转文本 进入该模块。

在这里插入图片描述

文件配置

功能按钮功能类别功能描述
选择音频/视频目录目录选择选择需转换的文件目录,仅支持音频和视频类型文件,执行任务前自动校验路径有效性。
输出路径目录选择设置音频文件的保存位置,默认使用系统设定的统一输出路径,并自动校验路径有效性。
文本转语音方式模式选择选择转录模式(FunAsr或FasterWhisper)进行音频/视频转录。

在这里插入图片描述

参数配置

FunAsr音频转录参数设置

选项参数选择模式说明
damo模型目录默认配置需要按照 《我的AI工具箱Tauri+Django环境开发,支持局域网使用》 将模型下载到指定目录并解压缩
icc模型目录默认配置需要按照 《我的AI工具箱Tauri+Django环境开发,支持局域网使用》 将模型下载到指定目录并解压缩

在这里插入图片描述

FasterWhisper音频转录参数设置

🚨此转换模式需要有显卡能够进行进行操作,否则会很慢。🚨

选项参数选择模式说明
模型目录默认配置需要按照 《我的AI工具箱Tauri+Django环境开发,支持局域网使用》 将模型下载到指定目录并解压缩
计算方式下拉选择选择计算精度(如 16 位整数)
CPU 线程下拉选择设置用于计算的 CPU 线程数量(如 4 线程)
工作线程下拉选择设置后台工作的线程数量(如 8 个)
语言选择下拉选择选择识别语言(如中文 简体)
语音活动检测开关启用或禁用语音活动检测功能
语音检测强度滑动条设置语音活动检测的敏感度(如 3%)
前后填充时间滑动条设置语音处理的前后填充时间(如 56ms)
最短持续时间滑动条设置语音片段的最短持续时间(如 33ms)
最短静音时间滑动条设置识别过程中最短的静音间隔(如 78ms)

在这里插入图片描述

应用示例

这里以选择目录下有各种音频和视频文件,在选择目录后选择转录方式,这里选择FunAsr模型,在保证已经从网盘中下载好模型之后直接执行即可。

在这里插入图片描述

执行完成之后会在输入目录下看到生成的音频文件。

在这里插入图片描述

开发与应用

软件使用以及综合参考资料内容可以查阅

文章链接内容描述
《我的AI工具箱Tauri+Django环境开发,支持局域网使用》图形桌面工具使用教程,详细介绍 Tauri+Django 环境的开发方法,支持局域网部署与使用。
《我的AI工具箱Tauri+Django常见错误与解决办法》常见错误与解决办法,针对 Tauri+Django 环境下可能遇到的问题提供实用的解决方案。
《我的AI工具箱Tauri+Django内容生产介绍和使用》包含当前主流新媒体领域常用的音频、视频剪辑,以及内容一键生产功能。
《ComfyUI使用教程、开发指导、资源下载》工作流相关内容讲解,涵盖文件管理、文件汇总、软件使用教程及开发指导,附带模型下载资源。

相关文章:

  • 智能图像处理平台:RabbitMQ配置
  • Unclutter for Mac v2.2.12 剪贴板/文件暂存/笔记三合一 支持M、Intel芯片
  • 安卓基础组件Looper - 03 java层面的剖析
  • Spring Cloud Gateway 网关的使用
  • Stiring-PDF:开源免费的PDF文件处理软件
  • 记一次误禁用USB导致键盘鼠标失灵的修复过程
  • 【鸿蒙Next】鸿蒙与flutter使用自定义iconfont的ttf字体库对比总结
  • 大模型分布式训练和优化
  • 游戏引擎学习第133天
  • nuxt常用组件库html-validator、@nuxtjs/i18n、@nuxt/image、@unocss/nuxt使用解析
  • Leetcode 538: 把二叉搜索树转换为累加树
  • Leetcode 刷题记录 02 —— 双指针
  • 软件工程:软件需求之需求分析方法
  • 知识图谱的推荐实现方案(Vue)
  • 005-Docker 安装 Redis
  • stm32 jlink烧录时写保护
  • Metal学习笔记十一:贴图和材质
  • 算24点
  • C# Equals 和 ReferenceEquals 使用详解
  • Metal学习笔记七:片元函数
  • 菲律宾选举委员会公布中期选举结果,马科斯阵营选情未达预期
  • 首映|《星际宝贝史迪奇》真人电影,不变的“欧哈纳”
  • 美国务卿会见叙利亚外长,沙特等国表示将支持叙利亚重建
  • “多规合一”改革7年成效如何?自然资源部总规划师亮成绩单
  • 涉案资金超2亿元 “健康投资”骗局,专挑老年人下手
  • 农行再回应客户办理业务期间离世:亲属连续三次输错密码,理解亲属悲痛,将协助做好善后