当前位置: 首页 > wzjs >正文

做新疆行知书网站步骤云南seo简单整站优化

做新疆行知书网站步骤,云南seo简单整站优化,做网站买域名要多少钱,502 bad gateway wordpress本文不生产技术,只做技术的搬运工!!! 前言 最近在进行whisper微调实验,这个网上有很多成功案例,作者随机找了一个进行了复现,但是由于微调目的是适配本地方言,数据集的采集成为了一…

本文不生产技术,只做技术的搬运工!!!

前言

        最近在进行whisper微调实验,这个网上有很多成功案例,作者随机找了一个进行了复现,但是由于微调目的是适配本地方言,数据集的采集成为了一个重点难题,既要录制音频,又要打好标签,费时费力,作者开发了一个小软件,可以在录制音频时,将文本写入到标注文件中,进行快速音频采集标注(其实是多次一举,因为本来文本就是预先设定好的,直接录制完音频把念的稿子复制到标注文件里即可,作者这么做主要是想方便音频采集,因为作者不想手动改音频文件的名称,又想采集出来的音频以开始时间-结束时间.wav的形式保存)。

微调框架

https://github.com/yeyupiaoling/Whisper-Finetunehttps://github.com/yeyupiaoling/Whisper-Finetune大家自行配置即可,这个作者应该是中国人,写了中文版的ReadMe,整体很清晰明了

原始数据采集

        作者使用前言中提到的软件进行数据采集,采集完成后的原始数据如下图所示

每个wav文件都是一段录音,txt中包含了该段文本,如下图所示

数据处理脚本

import os
import json
import wavedef get_wav_duration(wav_path):"""获取WAV文件的时长(秒)。参数:wav_path (str): WAV文件的路径。返回:float: WAV文件的时长(秒)。"""with wave.open(wav_path, 'rb') as wav_file:frames = wav_file.getnframes()rate = wav_file.getframerate()duration = frames / float(rate)return durationdef getFileList(dir, Filelist, ext=None):"""获取文件夹及其子文件夹中文件列表输入 dir:文件夹根目录输入 ext: 扩展名返回: 文件路径列表"""newDir = dirif os.path.isfile(dir):if ext is None:Filelist.append(dir)else:if ext in dir:Filelist.append(dir)elif os.path.isdir(dir):for s in os.listdir(dir):newDir = os.path.join(dir, s)getFileList(newDir, Filelist, ext)return Filelistif __name__ == '__main__':path = "/home/workspace/yysblz0422/语音识别补录/补验"file_path = "val.jsonl"wav_path_list = []wav_path_list = getFileList(path,wav_path_list , ".wav")data = []for wav_path in wav_path_list:template = {"audio": {"path": "dataset/0.wav"}, "sentence": "近几年,不但我用书给女儿压岁,也劝说亲朋不要给女儿压岁钱,而改送压岁书。","language": "Chinese", "duration": 7.37}txt_path = wav_path.replace(".wav",".txt")with open(txt_path,"r") as f:template["sentence"] = f.read()template["audio"]["path"] = wav_pathtemplate["duration"] = get_wav_duration(wav_path)data.append(template)# 打开文件,使用写入模式with open(file_path, "w", encoding="utf-8") as jsonl_file:# 遍历数据列表,逐行写入 JSON 对象for item in data:# 将字典转换为 JSON 格式的字符串json_str = json.dumps(item, ensure_ascii=False)# 写入 JSON 字符串,换行分隔jsonl_file.write(json_str + "\n")print(f"数据已成功写入 {file_path}")

处理完成后,数据格式如下

采集软件展示

该软件可实现快速数据标注,同时也是一个非常好用的离线实时麦克风语音转文本工具,有软件需求或软件源代码需求的朋友可私聊作者。

http://www.dtcms.com/wzjs/517263.html

相关文章:

  • 长沙网站推广¥做下拉去118cr武汉网站优化公司
  • 为什么现在好多人嘲讽做核酸网站seo服务公司
  • dota2max网站怎么做壁纸云南新闻最新消息今天
  • 做网站必须要注册公司么百度在线咨询
  • 自己的网站怎么做淘宝联盟国家认可的教育培训机构
  • 网站建设公司哪家比较好优化网站制作方法大全
  • 微信小程序卖货怎么弄南宁百度seo价格
  • 自己怎么建网站appseo网络搜索引擎优化
  • 辽宁seo成都seo培训班
  • 北仑建设局网站厦门seo推广外包
  • 成都网站营销批发关键词推广和定向推广
  • 哈尔滨模板建站公司推荐亚马逊关键词排名提升
  • 信息企业网站建设的优势sem是什么意思?
  • 政府网站集约化建设要建立统一的2021最新免费的推广引流软件
  • 中国响应式网站建设品牌网站建设
  • 购物网站开发多少钱cnzz站长统计工具
  • 一家专门做动漫的网站西安seo
  • 如何查询一个网站的空间服务商百度学术官网登录入口
  • 网站建设营销怎么做手机seo排名软件
  • 搜索各大网站大连百度网站排名优化
  • 网站建设岗位的任职资格网站关键词优化推广哪家快
  • 动态网站开发语言有哪些杭州推广系统
  • html css网站开发兵书聊城网站推广公司
  • 郑州百姓网征婚交友哈尔滨seo优化
  • 优秀网站设计作品分析营销型企业网站有哪些
  • wordpress cms主题教程关键词优化排名第一
  • 网站开发web前端高性能优化之javascript优化细节seo排名优化是什么
  • 邯郸哪里做网站优化免费b站推广
  • 十大外包公司排名南昌seo教程
  • 做网站的一个月能赚多少钱西安竞价托管公司