当前位置: 首页 > news >正文

ParakeetTDT0.6BV2,语音识别ASR,极速转录, 高精度英文转录,标点支持(附整合包)

分享一个英伟达开源的高精度AI语音转文字神器——Parakeet-tdt-0.6b-v2!这款600亿参数的语音识别模型能实时将英文音频转化为带标点、大小写的文本,自动预测逐词时间戳,甚至能精准转录数字、歌词等复杂内容。

项目界面

我试了下,速度确实非常快,1分44秒的音频,转录花费的时间不超过5秒(5090显卡)。

使用方法

上传音频,音频格式建议MP3或者WAV。其他格式没测试过,不建议使用。

然后点击转录上传的文件。

生成时间轴和转录后的文本内容。

可以直接下载CSV格式的

也支持SRT下载

在界面上框选对应的文本片段还可以试听。

比较赞的是可以该项目支持商用,支持超长音频(3小时左右)。但是目前只支持英文转录,其他语言暂不支持。

配置需求

WIN

WindowsN卡需6G显存

如果整合包运行报错,需要安装cuda12.8

https://developer.nvidia.com/cuda-12-8-0-download-archive

MAC

暂不支持

整合包获取

👇🏻👇🏻👇🏻下方下方下方👇🏻👇🏻👇🏻

夸夸夸盘:
https://pan.quark.cn/s/03a53cdfe21f

度度度盘:
https://pan.baidu.com/s/1ixf3Y7eXS8skaBHlqk82CQ?pwd=rrts

制作不易,如果本文对您有帮助,还请点个免费的赞或在看!感谢您的阅读!

相关文章:

  • 常用算法模板函数(Python)
  • 用Python玩转人工智能——手搓图像分类模型
  • 【PhysUnits】13 改进减法(sub.rs)
  • 【加密算法】
  • 从“被动养老”到“主动健康管理”:平台如何重构代际关系?
  • Odoo 条码功能全面深度解析(VIP15万字版)
  • LiveNVR :实现非国标流转国标流的全方位解决方案
  • 勾股数的性质和应用
  • 接地气的方式认识JVM(一)
  • 通过teamcity cloud创建你的一个build
  • 【C语言】详解 指针
  • Java开发之定时器学习
  • 欧拉角转为旋转矩阵
  • 二叉树的锯齿形层序遍历——灵活跳跃的层次结构解析
  • w~视觉~合集6
  • 自我觉察是成长的第一步,如何构建内心的平静
  • 【线程与进程区别】
  • Spring AI框架快速入门
  • 华为OD机试真题——最佳的出牌方法(2025A卷:200分)Java/python/JavaScript/C/C++/GO最佳实现
  • SAR ADC 比较器的offset 校正
  • 专业网站建设好不好/百度客服中心
  • 顺德做网站公司哪家好/推广代理登录页面
  • 保定网站建设公司大全/网络软文是什么意思
  • 深圳市网站建设公司排名/培训课程安排
  • 如何创建网站和域名/网络营销策划包括哪些内容
  • vb .net网站开发/自己的品牌怎么做加盟推广