ParakeetTDT0.6BV2,语音识别ASR,极速转录, 高精度英文转录,标点支持(附整合包)
分享一个英伟达开源的高精度AI语音转文字神器——Parakeet-tdt-0.6b-v2!这款600亿参数的语音识别模型能实时将英文音频转化为带标点、大小写的文本,自动预测逐词时间戳,甚至能精准转录数字、歌词等复杂内容。
项目界面
我试了下,速度确实非常快,1分44秒的音频,转录花费的时间不超过5秒(5090显卡)。
使用方法
上传音频,音频格式建议MP3或者WAV。其他格式没测试过,不建议使用。
然后点击转录上传的文件。
生成时间轴和转录后的文本内容。
可以直接下载CSV格式的
也支持SRT下载
在界面上框选对应的文本片段还可以试听。
比较赞的是可以该项目支持商用,支持超长音频(3小时左右)。但是目前只支持英文转录,其他语言暂不支持。
配置需求
WIN
WindowsN卡需6G显存
如果整合包运行报错,需要安装cuda12.8
https://developer.nvidia.com/cuda-12-8-0-download-archive
MAC
暂不支持
整合包获取
👇🏻👇🏻👇🏻下方下方下方👇🏻👇🏻👇🏻
夸夸夸盘:
https://pan.quark.cn/s/03a53cdfe21f
度度度盘:
https://pan.baidu.com/s/1ixf3Y7eXS8skaBHlqk82CQ?pwd=rrts
制作不易,如果本文对您有帮助,还请点个免费的赞或在看!感谢您的阅读!