当前位置: 首页 > news >正文

动画设计招聘信息太原seo管理

动画设计招聘信息,太原seo管理,产品软文怎么写,宁波梅山建设局网站2025年5月6日,智源研究院在法国巴黎举行的GOSIM全球开源创新论坛上发布Chinese-LIPS中文多模态语音识别数据集,该数据为智源研究院联合南开大学共同构建。 在语音识别技术飞速发展的背景下,多模态语音识别正逐步成为学术界和工业界的研究热点…

2025年5月6日,智源研究院在法国巴黎举行的GOSIM全球开源创新论坛上发布Chinese-LIPS中文多模态语音识别数据集,该数据为智源研究院联合南开大学共同构建。

在语音识别技术飞速发展的背景下,多模态语音识别正逐步成为学术界和工业界的研究热点。相较于传统依赖音频的识别方法,多模态语音识别通过引入视觉信息(如唇动特征、语义图像、幻灯片等),显著提升了系统在嘈杂环境、多说话人场景以及术语密集内容下的鲁棒性与识别准确率。

数据集获取方式

Github地址:

https://github.com/flageval-baai/Chinese-LiPS

HuggingFace地址:

https://huggingface.co/datasets/BAAI/Chinese-LiPS

魔搭社区地址:

https://www.modelscope.cn/datasets/BAAI/Chinese-LiPS

Datahun地址:

https://data.baai.ac.cn/datadetail/Chinese-LiPS

当前,已有若干较为成熟的英语多模态语音识别数据集,如LRS系列、How2、SlideSpeech等,在推动视觉辅助语音识别技术发展方面发挥了重要作用。然而,这些数据集在视觉模态的构建上仍存在明显局限:

  • 信息类型不全面:部分数据集仅包含唇读信息,缺乏有效的语义上下文支持;而另一些则仅提供语义线索,如幻灯片或语境图像,但无法保证唇部区域的清晰可见与音频同步性。能够同时提供高质量唇读特征与语义视觉信息的多模态数据集仍极为稀缺。

  • 数据发展尚处初期:在中文领域,此类数据资源处于空白状态,尚无公开数据集能够全面覆盖真实教学、讲解、科普等复杂场景下的多模态表达需求。

智源研究院联合南开大学共同打造并开源了Chinese-LiPS数据集。作为首个“唇读信息+幻灯片语义信息”结合的中文多模态语音识别数据集,Chinese-LiPS数据集面向中文讲解、科普、教学、知识传播等复杂语境,致力于推动中文多模态语音识别技术的发展。

研究团队以 Chinese-LiPS 数据集为依托,针对语音识别性能提升,开展了一系列严谨的评测实验。

实验结果显示,在仅采用语音单模态输入的情况下,模型的字符错误率(CER)为 3.99%。当将语音、唇读信息、通过 OCR 技术从幻灯片提取的文本以及从图像和图形内容中获取的语义信息进行融合时,模型的字符错误率显著下降至 2.58%。

进一步对错误类型进行深入分析发现,唇读信息在减少删除错误方面发挥了重要作用。由于唇读能够捕捉到与发音相关的细节,在实际应用场景中,诸如填充词、因犹豫而未完整表达的语音片段等容易在语音识别中缺失的部分,借助唇读信息可有效补充;而幻灯片信息对于降低替换错误成效显著,幻灯片中所包含的丰富的语义和上下文信息,在面对专业词汇、地名等具有特定领域属性的词汇识别时,能够为模型提供关键的识别线索,从而大幅提高识别的准确性。

评测结果显示,多模态信息融合能够显著提升语音识别系统的性能,为语音识别技术的发展提供了新的思路与方向。

Chinese-LiPS评测实验结果

该数据集具备以下四大核心特点:

  • 数据规模大:Chinese-LiPS总时长约为100小时,包含36,208条高质量语音片段,由207位专业讲者录制,具备良好的代表性与多样性。

  • 覆盖主题丰富:内容涵盖科学技术、健康养生、文化历史、旅游探索、汽车工业、体育赛事等9大热门领域,主题分布均衡,充分体现了真实教学与讲解类语境下的表达特点与术语密度。

  • 高质量幻灯片制作:由领域专家设计内容并参与标注,确保幻灯片图文信息的准确性与专业性。PPT内容结构清晰、设计精美,包含丰富的图像与视觉语义信息,而非单一文字堆砌。

  • 高质量视频录制:视频由专业讲者在安静环境中录制,画面高清,涵盖唇读视频(720P)与幻灯片视频(1080P)两类模态,保障语音与唇动精准对齐,确保数据质量一致可靠。

Chinese-LiPS数据集中每个主题的时长分布

Chinese-LiPS数据集数据的分布情况

希望Chinese-LiPS数据集能够为从事语音识别、多模态融合、教育AI、虚拟讲解人等方向的研究者提供关键资源,共同推动中文智能语音技术的进步。

http://www.dtcms.com/a/463026.html

相关文章:

  • 再见用数字怎么表达?
  • DOM Comment
  • 举报非法网站要求做笔录淘宝权重查询入口
  • 自适应型网站建设网站设计学什么专业
  • 网站维护的基本概念营销网络是啥意思
  • 可以看禁止访问网站的浏览器做网站用是内网穿透好
  • 精选合肥网站建设网站建设所需要的材料
  • 集成mybatis
  • 做投诉网站赚钱吗平面图用什么软件做
  • 湛江网站建设方案报价wordpress 调用
  • 公司简介网站模板天津专业做网站
  • Unity中MonoBehavior类中的延迟函数Invoke详解(含案例)
  • app软件下载网站源码无锡企业网站
  • 公司注册网站建设延庆免费网站建设
  • 网站的新闻模块怎么做石家庄语音网站建设公司
  • AIGC入门,手搓大模型客户端与MCP交互第2集
  • 世纪城网站建设电子商务是干什么的专业
  • 网站开发绩效考核唐山市建设局网站
  • 32位汇编:实验7Win32汇编程序的编程环境
  • 怎么做海淘网站阿里巴巴外贸圈app
  • 如何建设一个电商网站久久建筑网官网登录
  • 深圳市罗湖区网站建设搜索引擎seo优化平台
  • 京东商品详情深度解析:从接口调用到商业价值挖掘的技术实现
  • dede网站seo生产企业网站有哪些
  • 行业网站开发公司有哪些免费做外贸网站
  • 怎么使用dw做一个网站阿里巴巴建设网站
  • 南通网站定制企业互联网网站名字
  • 太仓网站建设有限公司火车头 wordpress4.9
  • 基于51单片机的超声波智能避障小车
  • 郑州网站建设网站建设小型培训机构网站开发毕业设计