当前位置: 首页 > news >正文

因为工作需要,做了一个简单的FunASR语音引擎训练材料标注工具

FunASR-Annotation-Tool

因为工作需要,做了一个简单的FunASR语音引擎训练材料标注工具。传送门

因为工作需要,做了一个简单的FunASR语音引擎训练材料标注工具。

以paramformer训练为例,逻辑就是:

  1. 搞一个train_text.txt文件
  2. 打开train_text.txt文件
  3. 录音,保存wav到本地,和train_text.txt中的材料一一对应
  4. 生成parafomer训练指令需要的train_wav.scp文件

备注:

  1. 目前只实现了parafomer的,对我们目前的工作已经满足要求了,后续有其他要求再说(比如SenceVoice就还有事件、情绪)。这个也好做,就是切换菜单的时候,实现支持事件、情绪标注的功能即可
  2. 很多稳定性功能并没有太关注,若使用中出现问题,自行处理即可


基本操作流程:

  1. 利用任何一个LLM,生成train_text.txt。我这里有一个样例:
随机生成20条内容,要求如下: 
1、这些内容可以是中文也可以是英文 
2、每段内容的长度如果用正常语速阅读,不超过30秒。你生成的内容,每一条长度要分布均匀,有长有短 
3、需要为每段内容标注一个ID,假设内容用“C”表示,那么你给出的结果为:ID 空格 C。每一条换一行。 
4、ID要有顺序,比如从A0000开始,每一条增加一个数字 
5、特别注意,格式就是 "ID空格C",不要添加任何其他内容,严格按照此格式
6、不要做任何总结、归纳,只需要给出结果
  1. 保存LLM生成的内容到{working_dir}\train_text.txt中。working_dir你自己选
  2. 运行软件,“选择材料文件”或者用“文件->加载”出{working_dir}\train_text.txt
  3. 录音、保存
  4. “处理->生成jsonl素材”

最后,你就会在{working_dir}\train_text_dist\中得到你需要的内容

操作界面:

  • 基本界面

在这里插入图片描述

  • 菜单

在这里插入图片描述




  • 产生的结果[1]

在这里插入图片描述

  • 产生的结果[2]

在这里插入图片描述

相关文章:

  • 【Linux】git
  • 时源芯微|扩频IC如何减少电磁干扰(EMI)
  • 什么是SparkONYarn模式?
  • 喜报!3N获批首个创新医疗器械三类证—「镜净GP」硬性接触镜护理消毒仪
  • JDK 命令行工具大全与学习方法总结 —— 从帮助文档到高效实践
  • 【2025.5.12】视觉语言模型 (更好、更快、更强)
  • 「Mac畅玩AIGC与多模态37」开发篇32 - 基于工作流的双插件信息整合与展示优化
  • QFileDialog文件选择框
  • vllm量化02—awq
  • 自定义分区器-基础
  • typeof运算符和深拷贝
  • js白屏检测与白屏的修正机制
  • Pomelo知识框架
  • fiftyone-dataset使用基础
  • 猫眼浏览器:简约安全,极速浏览
  • java基础:异常体系
  • 2025五一杭州西湖三天游
  • Linux - 基础指令
  • 没经过我同意,flink window就把数据存到state里的了?
  • Linux基础 -- SSH 流式烧录与压缩传输笔记
  • 为什么越来越多景区,把C位留给了书店?
  • 微软将在全球裁员6000人,目标之一为减少管理层
  • 习近平同巴西总统卢拉会谈
  • 国家林草局原党组成员、副局长李春良接受审查调查
  • 10名“鬼火少年”凌晨结队在城区飙车,警方:涉非法改装,正处理
  • 外交部:愿同拉美国家共同维护多边贸易体制