当前位置: 首页 > wzjs >正文

做网站首页有什么wordpress账号权限

做网站首页有什么,wordpress账号权限,西安做网站哪家公司好,做ps从哪个网站上下载图片大小《950,000 Hours of Speech Data for Open-Source Speech Foundation Model Training on EU Languages》论文解析 一、研究背景与动机 论文首先指出,随着基础模型(FMs)的兴起以及对其风险和影响的监管努力,开源模型引起了广泛关…

《950,000 Hours of Speech Data for Open-Source Speech Foundation Model Training on EU Languages》论文解析

一、研究背景与动机

论文首先指出,随着基础模型(FMs)的兴起以及对其风险和影响的监管努力,开源模型引起了广泛关注。然而,现有的语音基础模型(SFMs)并未完全符合开源原则,因为没有模型能同时公开模型权重、代码和训练数据。作者强调,根据开源倡议的定义,开源 AI 需要满足使用、研究、修改和分享的自由,且训练数据的许可证不能限制这些权利。

论文聚焦于欧盟的 24 种官方语言,旨在填补开源语音基础模型(OSSFM)的空白。为此,作者收集了符合开源许可的自动语音识别(ASR)数据集和未标注语音语料库,总计 950,000 小时,并为 441,000 小时的未标注数据生成了自动转录文本,以促进欧盟语言开源 SFM 的开发。

二、开源合规语音数据

数据集调查

作者调查了适用于欧盟 24 种语言的开源合规语音数据集,这些数据集需满足免费获取且数据许可证允许创建和重新分发衍生产品。最终纳入的 18 个数据集涵盖了 505,725 小时的标注数据和 444,467 小时的未标注数据,总计 950,192 小时。其中,标注数据高度偏向英语,而未标注数据分布相对均衡。

数据集特点

  • MOSEL 数据集:包含 18 个子数据集,其中 7 个属于公共领域或采用 CC-0 许可证。例如,CommonVoice 数据集包含 6,732 小时语音数据,覆盖 22 种欧盟语言。

  • YouTube-Commons 数据集:尽管包含大量数据,但存在视频无语音、语言识别标签不准确等问题,需进一步处理才能用于训练。

三、伪标注过程

鉴于大多数语言标注数据稀缺,作者为 VoxPopuli 和 LibriLight 的 441,000 小时未标注语音数据生成了自动转录文本(伪标签)。使用 Whisper large v3 模型进行转录,该模型允许生成内容在任何许可证下发布。转录过程在 NVIDIA A100 64GB GPU 上进行,总耗时约 25,500 GPU 小时,成本超 100,000 美元,碳排放估计为 35,625 kgCO₂eq。

四、马耳他语实验验证

实验目的

选择马耳他语作为实验对象,因其资源稀缺,且 Whisper 在该语言上表现最差。实验旨在证明收集的数据和生成的转录文本可有效用于训练 ASR 模型。

实验方法

  • 模型架构:采用 12 层 Conformer 编码器和 6 层 Transformer 解码器的序列到序列模型,共 116M 参数。

  • 训练策略:使用标签平滑交叉熵损失和 CTC 损失,Adam 优化器配合 Noam 学习率调度器。为避免过拟合,设置 dropout 和权重衰减,并应用 SpecAugment 数据增强技术。

  • 数据处理:对伪标注数据应用简单过滤方法,去除其他语言音频和包含幻觉的自动转录文本。

实验结果

  • 未过滤数据:使用标注和伪标注数据训练的模型,词错误率(WER)约为 39%,显著优于 Whisper 的 80%。

  • 过滤后数据:应用过滤后的模型 WER 进一步降低至约 24%,表明过滤技术可有效提升模型性能。

五、研究结论与局限性

论文通过构建 MOSEL 数据集,为欧盟开源语音基础模型的开发奠定了基础。实验验证了数据对于低资源语言(如马耳他语)的有效性。然而,研究存在局限性:

  • 爱尔兰语数据不足:仅收集到 17 小时标注语音数据,需进一步收集和发布新素材。

  • 数据质量参差不齐:部分数据集(如 YouTube-Commons)的元数据和转录文本准确性存疑,使用前需专门检查。

  • 伪标签质量和过滤技术:Whisper 输出质量因语言而异,对于低资源语言,可能需要更先进的过滤技术以提高模型质量。

六、核心技术总结

在这里插入图片描述


文章转载自:

http://MoMDqx8F.Lsqxh.cn
http://SwyDnmnq.Lsqxh.cn
http://KvJK6CSt.Lsqxh.cn
http://UBj7tiMk.Lsqxh.cn
http://fvskdlSP.Lsqxh.cn
http://kaAbIxpm.Lsqxh.cn
http://Mu3bYwos.Lsqxh.cn
http://BzHymKtr.Lsqxh.cn
http://lmnPVDoy.Lsqxh.cn
http://8XZUcpRB.Lsqxh.cn
http://NjCZuUa8.Lsqxh.cn
http://g15Dbub5.Lsqxh.cn
http://A1lv9Lan.Lsqxh.cn
http://ySw3yNZc.Lsqxh.cn
http://P9TjRlEU.Lsqxh.cn
http://AFUYkKOx.Lsqxh.cn
http://KV3onB0N.Lsqxh.cn
http://yrIB62OF.Lsqxh.cn
http://vbzPZnt9.Lsqxh.cn
http://RyDZJftR.Lsqxh.cn
http://NTupkmZK.Lsqxh.cn
http://yE1KIy9P.Lsqxh.cn
http://2H5Y7Cco.Lsqxh.cn
http://b1SzzE4Y.Lsqxh.cn
http://DN6lJ8Ew.Lsqxh.cn
http://8GJ3TQry.Lsqxh.cn
http://cG7f782d.Lsqxh.cn
http://AIDXphCw.Lsqxh.cn
http://CMwPB90A.Lsqxh.cn
http://eub6Ww35.Lsqxh.cn
http://www.dtcms.com/wzjs/743491.html

相关文章:

  • 湖南网站建设 地址磐石网络最近高清中文在线国语字幕
  • 定制开发电商网站建设多少钱淘宝网页设计培训
  • 做网站图标按钮素材龙陵县住房和城乡建设局网站
  • 长沙企业网站建设企业常州百度推广公司
  • 做网站前端需要懂得企业网站建设费用做管理费用吗
  • 最好的网站建设哪家好网站建设运行情况报告
  • 坡头网站建设公司wordpress表格自适应
  • 销售网站平台怎么做的wordpress下滑显示导航
  • 天津手机版建站系统网站的基础服务
  • 镇江网站搜索优化c# 网站开发实例教程
  • 做淘宝网站报告网页空间层次
  • 怎么做可以聊天的网站吗东莞做网站哪个公司好
  • 长春做网站哪家便宜中国字体设计网
  • 网站建设基础培训邢台网站设计哪家专业
  • 简述商务网站建设网站同时做竞价和优化可以吗
  • 网站开发运营维护方案建议校园门户网站建设先进
  • 诸暨哪些公司可以制作网站前端培训机构出来的好找工作吗
  • 网站平台建设需要注意的是网站关键词在哪设置
  • 网站如何调用百度地图网站界面设计ps
  • 二建转注辽宁建设主管部门网站wordpress关注公众号可见
  • 网站建设个人建设广西网络公司有几家
  • 郑州网站建设维护企业站模板明细
  • 一流的盐城网站开发无代码app制作平台
  • 天津中心网站建设南宁五象新区建设投资集团网站
  • asp购物网站源码wordpress怎样优化3
  • 如何查看百度蜘蛛来过网站企业网站建设的目标
  • 选择佛山顺德网站设计做一个网站要注意什么
  • 南通购物网站建设建立一个企业网站
  • 长春电商网站建设公司排名烟台高端品牌网站建设
  • 上海哪里网站备案常用的网页开发技术有哪些